GTC 24：NVIDIA Blackwell AI運算平台架構解析，將72組GB200組成超大型GPU

NVIDIA在GTC 2024春季場發表Blackwell平台，透過全新NVLink交換器晶片串連36組Grace CPU與72組GB200 GPU，在單一機櫃就可提供1.44 EFPLOS運算效能。

雙裸晶封裝協同出擊

Blackwell GPU架構打頭陣的產品是GB200 Superchip，它整合了1組Grace CPU（中央處理器）與2組B200 GPU（繪圖處理器），具有20 TFLPOS FP8資料類型運算效能，若使用新的FP4資料類型則可將運能算效提升到40 TFLPOS，是前代Hopper GPU的5倍之譜。

延伸閱讀：NVIDIA於GTC 2024春季場發表Blackwell GPU與NVLink交換器晶片，單顆GPU效能高達20PFLOPS

Blackwell架構的命名源自紀念研究賽局理論和統計學的數學家David Harold Blackwell，也是第1位入選美國國家科學院的黑人學者。

B200可以說是目前世界上最強大的晶片之一，採用TSMC（台積電）4NP製程節點，並將2組裸晶（Die）封裝為單一晶片，總共具有高達2,080億個電晶體，藉由頻寬高達10 TB/s的互連匯流排連接成單個、統一GPU，共享總量達192GB的HMB3e高頻寬記憶體，足以執行10兆個參數的大型模型。

Blackwell搭載第2代Transformer引擎，透過新的微張量擴展（Micro-Tensor Scaling）與整合至TensorRT-LLM和NeMo Megatron運算框架的先進動態範圍管理演算法，以支援FP4資料類型的運算，除了能夠讓運算效能加倍之外，也能節省記憶體用量，以容納量體更大的AI模型。

Blackwell採用第5代NVLink，具有高達1.8TB/s的雙向資料吞吐量，並且最多可以串接576組Blackwell GPU，提供無縫高速資料傳輸的能力，有利加速參數數量高達1兆的模型以及混合專家（Mixture-of-Experts）AI模型的運算效能。此外Blackwell也內建處理能力達800GB/s的解壓縮引擎，有助於提高資料吞吐量並節省傳輸時的頻寬，確保資料分析和資料科學的最高效能。

在安全性方面，Blackwell整合RAS引擎，藉由晶片級的功能利用以AI為基礎的預防性維護診斷和預測可靠性問題，能夠最大化系統正常運行時間，並增強大規模AI部署的彈性，使其連續數週甚至數月不間斷地運行，以利降低運營成本。Blackwell也並支援新的本機介面加密協定，能夠在不影響效能的情況下保護機密運AI模型和客戶資料，對於醫療保健和金融服務等隱私敏感產業至關重要。

▲ NVIDIA創辦人暨執行長黃仁勳於2024年3月18日的GTC主題演講中展示Blackwell GPU（圖左。由於背景為全黑所以讓照片看起來有不自然，但這個老黃是真人，並不是AI生成的）。

▲ Blackwell GPU與GB200 Superchip的實體。

▲ Blackwell GPU採用TSMC（台積電）4NP製程節點，單一裸晶具有1,040億個電晶體。

▲ Blackwell搭載第2代Transformer引擎、第5代NVLink，整合RAS引擎、本機介面加密協定，並內建解壓縮引擎。

▲ GB200 Superchip在FP4資料類型的運算能效高達40 TFLPOS，是前代Hopper GPU FP8資料類型效能的5倍之譜。

▲ 透過硬體升級與資料類型最佳化等方式，NVIDIA在8年之內將AI運算效能提高1000倍。

進入Exa級效能時代

DGX GB200 NVL72系統由18組GB200 Superchip運算節點（包含2組GB200 Superchip）構成，全機總共包括36組Grace CPU與72組B200 GPU，並透過第5代NVLink互連技術連接為單一大型GPU，採用新型高效水冷機架，可在FP4 資料類型提供1.44 EFPLOS的FP4資料類型運算效能，達到Exa數量級的程度。

與由H100相比，GB200 Superchip在大型語言模型推論工作負載具有30倍的效能提升，若有更高的運算需求，還可透過擴展額外機架將8組或更多DGX GB200 NVL72系統串接為DGX SuperPOD超級電腦，提供總共高達240 TB的記憶體容量（包含Grace CPU的LPDDR5x以及B200 GPU的HBM3e），足以滿足超大量體AI模型訓練與推論的需求。

▲ DGX GB200 NVL72除了仰賴GB200 Superchip之外，負責資料交換工作的NVLink交換器晶片也功不可沒。它同樣採用TSMC 4NP製程節點，能在每條NVLink匯流排帶來雙向1.8 TB/s的資料傳輸速度，並可組織最多達576組GPU的運算節點，並且如DPU（資料處理器）一般，提供3.6 TFLOPS的SHARP V4運算效能。