GTC 24:NVIDIA Blackwell AI運算平台架構解析,將72組GB200組成超大型GPU

GTC 24:NVIDIA Blackwell AI運算平台架構解析,將72組GB200組成超大型GPU

ADVERTISEMENT

NVIDIA在GTC 2024春季場發表Blackwell平台,透過全新NVLink交換器晶片串連36組Grace CPU與72組GB200 GPU,在單一機櫃就可提供1.44 EFPLOS運算效能。

雙裸晶封裝協同出擊

Blackwell GPU架構打頭陣的產品是GB200 Superchip,它整合了1組Grace CPU(中央處理器)與2組B200 GPU(繪圖處理器),具有20 TFLPOS FP8資料類型運算效能,若使用新的FP4資料類型則可將運能算效提升到40 TFLPOS,是前代Hopper GPU的5倍之譜。

Blackwell架構的命名源自紀念研究賽局理論和統計學的數學家David Harold Blackwell,也是第1位入選美國國家科學院的黑人學者。

B200可以說是目前世界上最強大的晶片之一,採用TSMC(台積電)4NP製程節點,並將2組裸晶(Die)封裝為單一晶片,總共具有高達2,080億個電晶體,藉由頻寬高達10 TB/s的互連匯流排連接成單個、統一GPU,共享總量達192GB的HMB3e高頻寬記憶體,足以執行10兆個參數的大型模型。

Blackwell搭載第2代Transformer引擎,透過新的微張量擴展(Micro-Tensor Scaling)與整合至TensorRT-LLM和NeMo Megatron運算框架的先進動態範圍管理演算法,以支援FP4資料類型的運算,除了能夠讓運算效能加倍之外,也能節省記憶體用量,以容納量體更大的AI模型。

Blackwell採用第5代NVLink,具有高達1.8TB/s的雙向資料吞吐量,並且最多可以串接576組Blackwell GPU,提供無縫高速資料傳輸的能力,有利加速參數數量高達1兆的模型以及混合專家(Mixture-of-Experts)AI模型的運算效能。此外Blackwell也內建處理能力達800GB/s的解壓縮引擎,有助於提高資料吞吐量並節省傳輸時的頻寬,確保資料分析和資料科學的最高效能。

在安全性方面,Blackwell整合RAS引擎,藉由晶片級的功能利用以AI為基礎的預防性維護診斷和預測可靠性問題,能夠最大化系統正常運行時間,並增強大規模AI部署的彈性,使其連續數週甚至數月不間斷地運行,以利降低運營成本。Blackwell也並支援新的本機介面加密協定,能夠在不影響效能的情況下保護機密運AI模型和客戶資料,對於醫療保健和金融服務等隱私敏感產業至關重要。

NVIDIA創辦人暨執行長黃仁勳於2024年3月18日的GTC主題演講中展示Blackwell GPU(圖左。由於背景為全黑所以讓照片看起來有不自然,但這個老黃是真人,並不是AI生成的)。

Blackwell GPU與GB200 Superchip的實體。

Blackwell GPU採用TSMC(台積電)4NP製程節點,單一裸晶具有1,040億個電晶體。

Blackwell搭載第2代Transformer引擎、第5代NVLink,整合RAS引擎、本機介面加密協定,並內建解壓縮引擎。

GB200 Superchip在FP4資料類型的運算能效高達40 TFLPOS,是前代Hopper GPU FP8資料類型效能的5倍之譜。

透過硬體升級與資料類型最佳化等方式,NVIDIA在8年之內將AI運算效能提高1000倍。

進入Exa級效能時代

DGX GB200 NVL72系統由18組GB200 Superchip運算節點(包含2組GB200 Superchip)構成,全機總共包括36組Grace CPU與72組B200 GPU,並透過第5代NVLink互連技術連接為單一大型GPU,採用新型高效水冷機架,可在FP4 資料類型提供1.44 EFPLOS的FP4資料類型運算效能,達到Exa數量級的程度。

與由H100相比,GB200 Superchip在大型語言模型推論工作負載具有30倍的效能提升,若有更高的運算需求,還可透過擴展額外機架將8組或更多DGX GB200 NVL72系統串接為DGX SuperPOD超級電腦,提供總共高達240 TB的記憶體容量(包含Grace CPU的LPDDR5x以及B200 GPU的HBM3e),足以滿足超大量體AI模型訓練與推論的需求。

DGX GB200 NVL72除了仰賴GB200 Superchip之外,負責資料交換工作的NVLink交換器晶片也功不可沒。它同樣採用TSMC 4NP製程節點,能在每條NVLink匯流排帶來雙向1.8 TB/s的資料傳輸速度,並可組織最多達576組GPU的運算節點,並且如DPU(資料處理器)一般,提供3.6 TFLOPS的SHARP V4運算效能。

DGX GB200 NVL72系統由18組GB200 Superchip運算節點與9組NVLink交換器構成。

DGX GB200 NVL72系統可以視為單顆大型GPU,可提供1.44 EFLOPS的FP4資料類型運算效能。

使用8,000組上代Hopper GPU組成的系統訓練GPT Mixture-of-Experts 1.8T模型需時90天並消耗15百萬瓦電力。


Blackwell GPU在AI推論的效能表現最高可達Hopper GPU的30倍。

黃仁勳表示,DGX AI超級電腦是AI工業革命的工廠,全新的DGX SuperPOD結合NVIDIA最先進的加速運算、網路和軟體,協助公司、產業和國家完善和生成子有的人工智慧。

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則