老黃刀法切出A10與A30等AI運算GPU,順勢端出MLPerf V1.0效能驗證成果

老黃刀法切出A10與A30等AI運算GPU,順勢端出MLPerf V1.0效能驗證成果

ADVERTISEMENT

NVIDIA在GTC21期間宣佈A10與A30等針對AI運算與雲端串流、虛擬化等應用設計的運算卡,並透過MLPerf展現效能。

A10與A30輕量運算卡登場

先前NVIDIA已針對高效能AI運算推出A100繪圖處理器(以下簡稱GPU),以及滿足小型資料中心、邊緣運算與高階繪圖需求的T4A40等GPU,為了填補這些產品之間的空缺,NVIDIA於GTC21 GPU技術大會期間發表了採用Ampere架構的A10與A30等產品。

A10規劃為繪圖與輕度AI等應用,採單槽PCIe Gen4介面卡形式,搭載頻寬達600GB/s的24GB GDDR6記憶體,TDP僅150W,只需單個8Pin電源插槽就可以滿足供電需求。其FP32浮點運算效能為31.2TF,TF32 Tensor Core運算效能則可達125TF(透過AI稀疏性強化之效能表現)。

A30則規劃為AI推論與主流運算應用,,採雙槽PCIe Gen4介面卡形式,並可透過NVLink串接2張卡,搭載頻寬達933GB/s的24GB HBM2記憶體,TDP為165W,比較特別的是它採用8-Pin CPU電源端子其FP32浮點運算效能達10.3TF,TF32 Tensor Core運算效能則可達165TF(透過AI稀疏性強化之效能表現),並可支援4組多執行個體GPU(Multi-Instance GPU,MIG)。

A10與A30等新產品的定位為補足主流運算與繪圖需求。

A10是單槽的主流繪圖卡。

A10也可以應用於AI運算,其效能大約是T4的2.5倍。

A30則是雙槽的主流運算卡。

A30的電源端子並非傳統8-Pin PCIe或NVIDIA 12Pin電源端子,而是8-Pin CPU電源端子。

A30的AI運算效能大約是T4的3~8倍。

以A10為基準與其他不同運算單元的效能比較。

邊緣運算情境的效能測試則以Jetson Xaiver NX為比較基準。

MLPerf跑分更公平

MLPerf是由學術界、研究實驗室和業界共同組成的AI聯盟,目標為打造公平、實用測試基準,測試項目包含圖像分類、物體偵測、翻譯、自然語言處理、推薦等類別,以發揮為硬體、軟體和服務的AI訓練與推論提供客觀的效能評估,並在近期推出1.0版基準。

NVIDIA透過各種軟體改進,以及開源的Triton推論伺服軟體,為既有硬體的效能進行最佳化,在過去6個月中已帶來明顯AI運算效能提升,其中在3D U-Net項目中成果最為顯著,效能增益高達45%。

另外值得關注的焦點,就是NVIDIA也透過MLPerf來驗證MIG虛擬化的效能耗損。在所有測試項目的綜合表現中,MIG能帶來98%的效能表現,代表虛擬化僅損失2%的效能表現,執行效率相當理想。

MLPerf測試包含多種像目,近期終於迎來1.0正式版。

NVIDIA Triton能夠簡化推論服務並為效能最佳化。

NVIDIA透過軟體最佳化的方式,在6個月中帶來最高45% AI運算效能增益。

透過MLPerf驗証A100的MIG虛擬化功能,可以看到MIG的效能折損僅2%。

更多關於GTC21的報導,可以參考筆者先前撰寫的《NVIDIA於GTC21發表超強Arm架構CPU處理器NVIDIA Grace,效能海放x86》一文,以及該文中的延伸閱讀。

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括AI繪圖。

使用 Facebook 留言

發表回應

謹慎發言,尊重彼此。按此展開留言規則