GTC22,全新Hopper架構NVIDIA H100 GPU如何帶來6倍AI運算效能提升

GTC22,全新Hopper架構NVIDIA H100 GPU如何帶來6倍AI運算效能提升

ADVERTISEMENT

NVIDIA在GTC22春季展發表採用Hopper新架構的H100 GPU,並在多重軟硬體改良與最佳化後,帶來6倍於前代A100 GPU的AI運算效能提升。

軟硬兼施的世代革新

在GTC22春季展的開幕演說中,NVIDIA創辦人兼執行長黃仁勳發表了次世代採用全新Hopper架構的H100 GPU,筆者也在《NVIDIA於GTC 2022發表全新Hopper GPU架構,還可與Grace合體變身超級晶片》文中介紹了H100 GPU的規格,接下來筆者將更進一步分析Hopper的架構革新。

從硬體結構的觀點出發,H100 GPU的最小組成區塊為串流多重處理器(Streaming Multiprocessors,SM,內部具有128組FP32 CUDA核心),並由2個SM組成材質處理叢集(Texture Processing Clusters,TPC)、9個TPC組成GPU處理叢集(GPU Processing Clusters,GPC),而完整的H100 GPU具有8組GPC(共有144組SM),此外還有容量高達60MB的L2快取記憶體與12組HBM3記憶體控制器(支援6組HBM3或HBM2e堆疊),並支援PCIe Gen5與NVLink等對外傳輸資料的匯流排。

Hopper架構中全新的第四代Tensor Core可以在同時脈的前提下,提供2倍於前代的稠密(Dense)或稀疏(Sparse)運算的原始效能,並具有更具效率的資料管理單元,能夠節省30%的資料傳輸耗電。

由於AI運算的特性需要仰賴大量的資料吞吐,因此對外傳輸頻寬將對整體效能造成決定性的影響,雖然H100的PCIe Gen5能夠提供128 GB/s的總頻寬(單向64GB/s),但NVIDIA仍不滿足於此,因此在Hopper架構導入頻寬達到900GB/s的NVLink,具有7倍於PCIe Gen5的頻寬,整體聚合頻寬(Aggregate Bandwidth)更是比現今最快的伺服器高出30倍,能為處理TB級資料量的應用程式帶來10倍的整體效能表現。

黃仁勳在GTC22的訪談中提到,NVIDIA的策略是盡可能的使用PCIe匯流排,其優點在於每個裝置都可以獨立運作,其次選用的匯流排則是UCIe,它與PCIe類似消耗更少電力並提供更高頻寬,但其應用情境為裸晶互連(Die to Die),僅管這項技術還在起步階段,但NVIDIA仍相當看好其未來發展。

不過黃仁勳也表示UCIe仍為周邊介面而無法直接深入晶片內部(UCIe cannot tap directly into the chip. It’s still a peripherals interface.),NVLink則能夠幾乎直接黏合2個晶片的記憶體系統,讓它們在連接之後,本質上就像同一個晶片,雖然還是會有少許延遲與虛耗,但它們可以使用相同的程式模型(Programming Model),因此會在需要連接所有運算單元與記憶體的使用情境中使用NVLink。

採用Hopper新架構的H100 GPU是目前最先進的GPU與加速運單元。

H100 GPU具有Transformer Engine、DPX指令、機密運算、第二代多執行個體GPU等新功能,更多資訊可以參考本文。

H100 GPU的最小組成區塊為串流多重處理器(SM),內部具有128組FP32 CUDA核心。

2個SM組成TPC,9個TPC組成GPC。完整的H100 GPU具有8組GPC(共有144組SM),以及60MB的L2快取記憶體與12組HBM3記憶體控制器。

可以看到在NVLink網路高頻寬優勢的協助下,能夠有效提升H100的AI訓練效能。

FP8、Transformer Engine、DPX指令推升運算效能

Hopper架構的一大特色就是支援全新的FP8資料類型,它採用8個位元來記錄浮點數,並支援E5M2、E4M3等模式,其資料格式如下:

E5M2:1個位元記錄正負號,5個位元記錄指數(Exponent,表示次方數),2個位元記錄尾數(Mantissa,表示數字資料)。適合動態範圍較大且較不要求精確度的資料

E4M3:1個位元記錄正負號,4個位元記錄指數,3個位元記錄尾數。適合需要更高精確度但動態範圍較小的資料

雖然FP8會犧牲少許運算的精確度,但與FP16或BF16等資料類型相比,可以將資料的容量減半,不但更節省記憶體空間,也能讓資料吞吐量翻倍。

為了要發揮FP8的優勢,全新的Transformer Engine運算引擎能夠以對運算框架透明的方式支援FP8資料類型(簡單地說就是不需修改程式,也可以享有FP8的加速效果。使用者可手動設定啟用、停用FP8資料類型),發揮在進行自然語言處理時,將網路速度提高6倍又不失其精度。

另一方面,全新的DPX指令的動態規劃(Dynamic Programming)功能也對整體運算效能有莫大助益,它的2大核心功能為遞迴(Recursion)與備忘(Memoization),前者能將複雜的問題拆分為多個簡單的子問題,從而節省運算的工作量與時間,至於後者則會將會被重複使用多次的子問題答案儲存起來,以便往後直接查找答案並略過運算。

NVIDIA表示DPX指令能夠提升多種演算法的執行效率,針對包括路線最佳化、基因組學等應用,與使用傳統處理器(CPU)相比甚至能將執行速度加快達40倍之譜。

綜合各項改善,將H100與前代A100相比,H100的SM數量提升帶來1.2倍效能增益、Tensor Core效能提升帶來2倍效能增益、Transformer Engine帶來2倍效能增益、運作時脈提升帶來1.3倍效能增益等多重改良下,H100能在特定應用情境下帶來6倍於A100的運算效能。

FP8資料類型可分為E5M2、E4M3等模式,可以提升AI運算效能,分別適合動態範圍較大且較不要求精確度,以及需要更高精確度但動態範圍較小的資料。

H100在本身運算架構提升與FP8資料類型的協助下,與前代A100相比能夠提升6倍Tensor Core資料吞吐量。

H100與A100在各種不同資料類型的運算效能對照表,可以看到同類型下H100有1.5~3.2倍的效能,而H100搭配全新的FP8可以帶來較A100搭配FP16達6.4倍的效能表現。

DPX指令所支援的動態規劃功能,在路線最佳化應用中能帶來40倍於處理器的運算效能。

在SM數量提升、Tensor Core效能提升、Transformer Engine、運作時脈提升等多重改良下,H100能在特定應用情境下帶來6倍於A100的運算效能。

H100 GPU的另一大特色筆者在先前也曾提到,就是它具有相當大的使用彈性與擴展性,從最基本的SXM模組版本與H100 PCIe Gen 5 GPU運算卡,到整合Connectx-7網路晶片的H100 CNX運算卡,並有HGX H100伺服器、DGX H100電腦、DGX SuperPOD超級電腦,透過不同的組態來滿足使用者多樣的應用需求。

想要更深入瞭解Hopper架構的讀者,可以下載NVIDIA提供的Hopper架構白皮書(PDF,7.5MB)。

使用 Facebook 留言

發表回應

謹慎發言,尊重彼此。按此展開留言規則