2024.03.20 09:00

GTC 24:NVIDIA Blackwell AI運算平台架構解析,將72組GB200組成超大型GPU

ADVERTISEMENT

NVIDIA在GTC 2024春季場發表Blackwell平台,透過全新NVLink交換器晶片串連36組Grace CPU與72組GB200 GPU,在單一機櫃就可提供1.44 EFPLOS運算效能。

雙裸晶封裝協同出擊

Blackwell GPU架構打頭陣的產品是GB200 Superchip,它整合了1組Grace CPU(中央處理器)與2組B200 GPU(繪圖處理器),具有20 TFLPOS FP8資料類型運算效能,若使用新的FP4資料類型則可將運能算效提升到40 TFLPOS,是前代Hopper GPU的5倍之譜。

Blackwell架構的命名源自紀念研究賽局理論和統計學的數學家David Harold Blackwell,也是第1位入選美國國家科學院的黑人學者。

ADVERTISEMENT

B200可以說是目前世界上最強大的晶片之一,採用TSMC(台積電)4NP製程節點,並將2組裸晶(Die)封裝為單一晶片,總共具有高達2,080億個電晶體,藉由頻寬高達10 TB/s的互連匯流排連接成單個、統一GPU,共享總量達192GB的HMB3e高頻寬記憶體,足以執行10兆個參數的大型模型。

Blackwell搭載第2代Transformer引擎,透過新的微張量擴展(Micro-Tensor Scaling)與整合至TensorRT-LLM和NeMo Megatron運算框架的先進動態範圍管理演算法,以支援FP4資料類型的運算,除了能夠讓運算效能加倍之外,也能節省記憶體用量,以容納量體更大的AI模型。

Blackwell採用第5代NVLink,具有高達1.8TB/s的雙向資料吞吐量,並且最多可以串接576組Blackwell GPU,提供無縫高速資料傳輸的能力,有利加速參數數量高達1兆的模型以及混合專家(Mixture-of-Experts)AI模型的運算效能。此外Blackwell也內建處理能力達800GB/s的解壓縮引擎,有助於提高資料吞吐量並節省傳輸時的頻寬,確保資料分析和資料科學的最高效能。

ADVERTISEMENT

在安全性方面,Blackwell整合RAS引擎,藉由晶片級的功能利用以AI為基礎的預防性維護診斷和預測可靠性問題,能夠最大化系統正常運行時間,並增強大規模AI部署的彈性,使其連續數週甚至數月不間斷地運行,以利降低運營成本。Blackwell也並支援新的本機介面加密協定,能夠在不影響效能的情況下保護機密運AI模型和客戶資料,對於醫療保健和金融服務等隱私敏感產業至關重要。

ADVERTISEMENT

ADVERTISEMENT

進入Exa級效能時代

DGX GB200 NVL72系統由18組GB200 Superchip運算節點(包含2組GB200 Superchip)構成,全機總共包括36組Grace CPU與72組B200 GPU,並透過第5代NVLink互連技術連接為單一大型GPU,採用新型高效水冷機架,可在FP4 資料類型提供1.44 EFPLOS的FP4資料類型運算效能,達到Exa數量級的程度。

與由H100相比,GB200 Superchip在大型語言模型推論工作負載具有30倍的效能提升,若有更高的運算需求,還可透過擴展額外機架將8組或更多DGX GB200 NVL72系統串接為DGX SuperPOD超級電腦,提供總共高達240 TB的記憶體容量(包含Grace CPU的LPDDR5x以及B200 GPU的HBM3e),足以滿足超大量體AI模型訓練與推論的需求。


黃仁勳表示,DGX AI超級電腦是AI工業革命的工廠,全新的DGX SuperPOD結合NVIDIA最先進的加速運算、網路和軟體,協助公司、產業和國家完善和生成子有的人工智慧。

ADVERTISEMENT