GTC22，全新Hopper架構NVIDIA H100 GPU如何帶來6倍AI運算效能提升

NVIDIA在GTC22春季展發表採用Hopper新架構的H100 GPU，並在多重軟硬體改良與最佳化後，帶來6倍於前代A100 GPU的AI運算效能提升。

軟硬兼施的世代革新

在GTC22春季展的開幕演說中，NVIDIA創辦人兼執行長黃仁勳發表了次世代採用全新Hopper架構的H100 GPU，筆者也在《NVIDIA於GTC 2022發表全新Hopper GPU架構，還可與Grace合體變身超級晶片》文中介紹了H100 GPU的規格，接下來筆者將更進一步分析Hopper的架構革新。

從硬體結構的觀點出發，H100 GPU的最小組成區塊為串流多重處理器（Streaming Multiprocessors，SM，內部具有128組FP32 CUDA核心），並由2個SM組成材質處理叢集（Texture Processing Clusters，TPC）、9個TPC組成GPU處理叢集（GPU Processing Clusters，GPC），而完整的H100 GPU具有8組GPC（共有144組SM），此外還有容量高達60MB的L2快取記憶體與12組HBM3記憶體控制器（支援6組HBM3或HBM2e堆疊），並支援PCIe Gen5與NVLink等對外傳輸資料的匯流排。

Hopper架構中全新的第四代Tensor Core可以在同時脈的前提下，提供2倍於前代的稠密（Dense）或稀疏（Sparse）運算的原始效能，並具有更具效率的資料管理單元，能夠節省30%的資料傳輸耗電。

由於AI運算的特性需要仰賴大量的資料吞吐，因此對外傳輸頻寬將對整體效能造成決定性的影響，雖然H100的PCIe Gen5能夠提供128 GB/s的總頻寬（單向64GB/s），但NVIDIA仍不滿足於此，因此在Hopper架構導入頻寬達到900GB/s的NVLink，具有7倍於PCIe Gen5的頻寬，整體聚合頻寬（Aggregate Bandwidth）更是比現今最快的伺服器高出30倍，能為處理TB級資料量的應用程式帶來10倍的整體效能表現。

黃仁勳在GTC22的訪談中提到，NVIDIA的策略是盡可能的使用PCIe匯流排，其優點在於每個裝置都可以獨立運作，其次選用的匯流排則是UCIe，它與PCIe類似消耗更少電力並提供更高頻寬，但其應用情境為裸晶互連（Die to Die），僅管這項技術還在起步階段，但NVIDIA仍相當看好其未來發展。

不過黃仁勳也表示UCIe仍為周邊介面而無法直接深入晶片內部（UCIe cannot tap directly into the chip. It’s still a peripherals interface.），NVLink則能夠幾乎直接黏合2個晶片的記憶體系統，讓它們在連接之後，本質上就像同一個晶片，雖然還是會有少許延遲與虛耗，但它們可以使用相同的程式模型（Programming Model），因此會在需要連接所有運算單元與記憶體的使用情境中使用NVLink。

▲ 採用Hopper新架構的H100 GPU是目前最先進的GPU與加速運單元。

▲ H100 GPU具有Transformer Engine、DPX指令、機密運算、第二代多執行個體GPU等新功能，更多資訊可以參考本文。

▲ H100 GPU的最小組成區塊為串流多重處理器（SM），內部具有128組FP32 CUDA核心。

▲ 2個SM組成TPC，9個TPC組成GPC。完整的H100 GPU具有8組GPC（共有144組SM），以及60MB的L2快取記憶體與12組HBM3記憶體控制器。

▲ 可以看到在NVLink網路高頻寬優勢的協助下，能夠有效提升H100的AI訓練效能。

FP8、Transformer Engine、DPX指令推升運算效能

Hopper架構的一大特色就是支援全新的FP8資料類型，它採用8個位元來記錄浮點數，並支援E5M2、E4M3等模式，其資料格式如下：

E5M2：1個位元記錄正負號，5個位元記錄指數（Exponent，表示次方數），2個位元記錄尾數（Mantissa，表示數字資料）。適合動態範圍較大且較不要求精確度的資料

E4M3：1個位元記錄正負號，4個位元記錄指數，3個位元記錄尾數。適合需要更高精確度但動態範圍較小的資料

雖然FP8會犧牲少許運算的精確度，但與FP16或BF16等資料類型相比，可以將資料的容量減半，不但更節省記憶體空間，也能讓資料吞吐量翻倍。

為了要發揮FP8的優勢，全新的Transformer Engine運算引擎能夠以對運算框架透明的方式支援FP8資料類型（簡單地說就是不需修改程式，也可以享有FP8的加速效果。使用者可手動設定啟用、停用FP8資料類型），發揮在進行自然語言處理時，將網路速度提高6倍又不失其精度。

另一方面，全新的DPX指令的動態規劃（Dynamic Programming）功能也對整體運算效能有莫大助益，它的2大核心功能為遞迴（Recursion）與備忘（Memoization），前者能將複雜的問題拆分為多個簡單的子問題，從而節省運算的工作量與時間，至於後者則會將會被重複使用多次的子問題答案儲存起來，以便往後直接查找答案並略過運算。

NVIDIA表示DPX指令能夠提升多種演算法的執行效率，針對包括路線最佳化、基因組學等應用，與使用傳統處理器（CPU）相比甚至能將執行速度加快達40倍之譜。

綜合各項改善，將H100與前代A100相比，H100的SM數量提升帶來1.2倍效能增益、Tensor Core效能提升帶來2倍效能增益、Transformer Engine帶來2倍效能增益、運作時脈提升帶來1.3倍效能增益等多重改良下，H100能在特定應用情境下帶來6倍於A100的運算效能。

▲ FP8資料類型可分為E5M2、E4M3等模式，可以提升AI運算效能，分別適合動態範圍較大且較不要求精確度，以及需要更高精確度但動態範圍較小的資料。

▲ H100在本身運算架構提升與FP8資料類型的協助下，與前代A100相比能夠提升6倍Tensor Core資料吞吐量。

▲ H100與A100在各種不同資料類型的運算效能對照表，可以看到同類型下H100有1.5~3.2倍的效能，而H100搭配全新的FP8可以帶來較A100搭配FP16達6.4倍的效能表現。

▲ DPX指令所支援的動態規劃功能，在路線最佳化應用中能帶來40倍於處理器的運算效能。

▲ 在SM數量提升、Tensor Core效能提升、Transformer Engine、運作時脈提升等多重改良下，H100能在特定應用情境下帶來6倍於A100的運算效能。

H100 GPU的另一大特色筆者在先前也曾提到，就是它具有相當大的使用彈性與擴展性，從最基本的SXM模組版本與H100 PCIe Gen 5 GPU運算卡，到整合Connectx-7網路晶片的H100 CNX運算卡，並有HGX H100伺服器、DGX H100電腦、DGX SuperPOD超級電腦，透過不同的組態來滿足使用者多樣的應用需求。

想要更深入瞭解Hopper架構的讀者，可以下載NVIDIA提供的Hopper架構白皮書（PDF，7.5MB）。