2024.03.20 15:30

NVIDIA最強AI晶片Blackwell B200晶片效能太驚人,摩爾定律已經被「黃氏定律」取代

ADVERTISEMENT

在NVIDIA的2024 GTC大會上,「最強AI晶片」Blackwell B200 GPU的高調發表,已不單單是穩固NVIDIA在晶片領域的王者地位,更是讓業內人士高呼:摩爾定律已經要被黃氏定律取代了。

黃仁勳介紹了運行AI模型的新一代晶片和軟體。他表示,新一代的B200 GPU擁有2080億個電晶體,可以提供高達20 petaflops的FP4性能。相比之下,H100僅為4 petaflops。

此外,將兩個B200 GPU與單個Grace CPU 結合在一起的 GB200,可以為LLM推理工作負載提供30倍的性能,並且顯著提高效率。

ADVERTISEMENT

黃仁勳還強調稱:與H100相比,GB200的成本和能耗降低了25倍!

關於市場近期頗為關注的能源消耗問題,B200 GPU也交出了最新的答卷。

ADVERTISEMENT

黃仁勳表示,先前訓練一個1.8 兆參數模型,需要8000 個 Hopper GPU 並消耗15 MW電力。但如今,2000 個 Blackwell GPU就可以實現這一目標,耗電量僅為4MW。

在擁有1750億參數的GPT-3大型語言模型基準測試中,GB200的性能是H100的7倍,訓練速度是H100的4倍。

值得一提的是,B200 GPU的重要進步之一,是採用了第二代Transformer引擎。

ADVERTISEMENT

它透過對每個神經元使用4位元(20 petaflops FP4)而不是8位元,直接將運算能力、頻寬和模型參數規模增了一倍。

而只有當這些大量的GPU連接在一起時,第二個重要差別才會顯現,那就是新一代NVLink交換機可以讓576個GPU相互通訊,雙向頻寬高達1.8TB/秒。

ADVERTISEMENT

而這就需要NVIDIA建構一個全新的網路交換晶片,其中包括500億個電晶體和一些自己的內建運算:擁有3.6 teraflops FP8處理能力。

在此之前,僅16個GPU組成的叢集,就會耗費60%的時間用於相互通訊,只有40%的時間能用於實際計算。

最強AI晶片宣告「黃式定律」的時代

一石激起千層浪,「最強AI晶片」的推出讓網友紛紛讚歎。

其中NVIDIA高級科學家Jim Fan直呼:Blackwell新王誕生,新的摩爾定律已經應運而生。

重點是:

  • DGX Grace-Blackwell GB200:單個機架的運算能力超過1 Exaflop。
  • 黃仁勳交付給OpenAI的第一台DGX是0.17 Petaflops。
  • GPT-4的1.8T參數可在2000個Blackwell上完成90天的訓練。

還有網友感嘆:1000倍成就達成!

「Blackwell象徵著在短短8年內,NVIDIA AI 晶片的運算能力實現了提升1000倍的歷史性成就。」

「2016 年,『Pascal』晶片的運算能力僅為19 teraflops,而今天Blackwell的運算能力已經達到了 20000 teraflops。」

什麼是黃式定律?

過去,NVIDIA公司首席科學家比爾·戴利(Bill Dally)在一篇文章中曾經說,NVIDIA對下一代技術的態度是圍繞「黃氏定律」展開的。

所謂「黃氏定律(Huang's Law)」的由來,NVIDIA聲稱並非他們自己發明的,這一術語源自 IEEE Spectrum 的一篇報導,後來被多家媒體所熟知。NVIDIA最近在其產品中實施的概念確實很有趣,它可能是打開行業未來之門的鑰匙。

NVIDIA在過去十年中見證了運算晶片性能驚人的 1000 倍增長。按照書本上的說法,如果採用摩爾定律,這樣的提升是不可能實現的,而製程的縮減也不會對這一數字產生任何影響。

NVIDIA在文內提到,在整個 10 年期間,公司從 28 奈米製程轉換到 5 奈米製程,性能僅提高了 2.5 倍。這違背了摩爾定律,即晶片每「縮小」一次,性能就會同比提高 2 倍。

當時達利表示,NVIDIA的未來取決於「黃氏定律」,而「黃氏定律」會帶來一些行業進步的機會。

 

ADVERTISEMENT