老黃刀法切出A10與A30等AI運算GPU，順勢端出MLPerf V1.0效能驗證成果 | T客邦

老黃刀法切出A10與A30等AI運算GPU，順勢端出MLPerf V1.0效能驗證成果

ADVERTISEMENT

NVIDIA在GTC21期間宣佈A10與A30等針對AI運算與雲端串流、虛擬化等應用設計的運算卡，並透過MLPerf展現效能。

A10與A30輕量運算卡登場

先前NVIDIA已針對高效能AI運算推出A100繪圖處理器（以下簡稱GPU），以及滿足小型資料中心、邊緣運算與高階繪圖需求的T4與A40等GPU，為了填補這些產品之間的空缺，NVIDIA於GTC21 GPU技術大會期間發表了採用Ampere架構的A10與A30等產品。

A10規劃為繪圖與輕度AI等應用，採單槽PCIe Gen4介面卡形式，搭載頻寬達600GB/s的24GB GDDR6記憶體，TDP僅150W，只需單個8Pin電源插槽就可以滿足供電需求。其FP32浮點運算效能為31.2TF，TF32 Tensor Core運算效能則可達125TF（透過AI稀疏性強化之效能表現）。

A30則規劃為AI推論與主流運算應用，，採雙槽PCIe Gen4介面卡形式，並可透過NVLink串接2張卡，搭載頻寬達933GB/s的24GB HBM2記憶體，TDP為165W，比較特別的是它採用8-Pin CPU電源端子其FP32浮點運算效能達10.3TF，TF32 Tensor Core運算效能則可達165TF（透過AI稀疏性強化之效能表現），並可支援4組多執行個體GPU（Multi-Instance GPU，MIG）。

▲ A10與A30等新產品的定位為補足主流運算與繪圖需求。

▲ A10是單槽的主流繪圖卡。

▲ A10也可以應用於AI運算，其效能大約是T4的2.5倍。

▲ A30則是雙槽的主流運算卡。

▲ A30的電源端子並非傳統8-Pin PCIe或NVIDIA 12Pin電源端子，而是8-Pin CPU電源端子。

▲ A30的AI運算效能大約是T4的3~8倍。

▲ 以A10為基準與其他不同運算單元的效能比較。

▲ 邊緣運算情境的效能測試則以Jetson Xaiver NX為比較基準。

MLPerf跑分更公平

MLPerf是由學術界、研究實驗室和業界共同組成的AI聯盟，目標為打造公平、實用測試基準，測試項目包含圖像分類、物體偵測、翻譯、自然語言處理、推薦等類別，以發揮為硬體、軟體和服務的AI訓練與推論提供客觀的效能評估，並在近期推出1.0版基準。

NVIDIA透過各種軟體改進，以及開源的Triton推論伺服軟體，為既有硬體的效能進行最佳化，在過去6個月中已帶來明顯AI運算效能提升，其中在3D U-Net項目中成果最為顯著，效能增益高達45%。

另外值得關注的焦點，就是NVIDIA也透過MLPerf來驗證MIG虛擬化的效能耗損。在所有測試項目的綜合表現中，MIG能帶來98%的效能表現，代表虛擬化僅損失2%的效能表現，執行效率相當理想。

▲ MLPerf測試包含多種像目，近期終於迎來1.0正式版。

▲ NVIDIA Triton能夠簡化推論服務並為效能最佳化。

▲ NVIDIA透過軟體最佳化的方式，在6個月中帶來最高45% AI運算效能增益。

▲ 透過MLPerf驗証A100的MIG虛擬化功能，可以看到MIG的效能折損僅2%。

更多關於GTC21的報導，可以參考筆者先前撰寫的《NVIDIA於GTC21發表超強Arm架構CPU處理器NVIDIA Grace，效能海放x86》一文，以及該文中的延伸閱讀。

#電腦王 #顯示卡 #NVIDIA #gpu #a10 #人工智慧 #ai #gtc #商業應用 #企業服務 #企業設備 #半導體/電子產業 #gtc21 #mlperf #a30

謹慎發言，尊重彼此。按此展開留言規則