FB 建議貼文

選取貼文複製成功(包含文章連結)!

NVIDIA 於 AI Infra Summit 發表最新 MLPerf Inference 基準測試結果,透過分離運算提升近 50% 效能

NVIDIA 於 AI Infra Summit 發表最新 MLPerf Inference 基準測試結果,透過分離運算提升近 50% 效能

ADVERTISEMENT

NVIDIA於AI Infra Summit 2025(人工智慧基礎設施高峰會)帶來最新MLPerf Inference基準測試成績,使用Blackwell GPU搭配分離運算技術,能在不變動硬體的前提下帶來近50%效能增益。

AI推論也有效能禁藥

筆者在前文提到分離運算(Disaggregated Serving)的概念,NVIDIA除了將它利用在下代的Rubin CPX GPU之外,也將其導入Blackwell架構GPU,將現有的GB200 NVL 72拆分為2個工作群組,分工合作發揮1加1大於2的效能增益。

延伸閱讀:
【GTC 2025】黃仁勳演說深入分析:提出「終極摩爾定律」,追求相同耗電更高效能
NVIDIA於AI Infra Summit 2025發表Rubin CPX GPU,透過分離運算提升6倍AI推論效能(工作中)

在Llama 3.1 405B Interactive測試中,GB200 NVL 72的72組Blackwell GPU被拆分為56組負責第1階段的前後文分析與預填寫(Context / Prefill),剩餘的16組負責第2階段則為生成與解碼(Generation / Decode),相較於未分組的運算方式,能夠提高近50%的效能增益。

在新提交的MLPerf Inference基準測試成績中,單組Blackwell GPU執行Llama 3.1 8B的效能達每秒15,384字詞,表現最佳的競爭對手單晶片效能僅每秒255字詞,彼此相差68倍,另外3項測試則是沒有任何競爭對手提交測試成績。

在Llama 3.1 405B Interactive測試中,將GB200 NVL 72拆分為2個工作群組,能夠提高近50%的效能增益,讓整體效能達到Hopper架構GPU的5.4倍。

在新提交的成績中,單組Blackwell GPU執行Llama 3.1 8B的效能達每秒15,384字詞,優於表現最佳的競爭對手68倍。

NVIDIA表示投資300萬元建置GB200 NVL72伺服器,所產生的字詞(Token)將可帶來3000萬元的營收。

Blackwell、Blackwell Ultra都已經進入完全生產狀態,明年將會由Vera CPU與Rubin GPU接替市場。

Blackwell Ultra GPU支援NVFP4資料類型,能夠發揮15PFLOPS的理論運算效能。

AI Infra Summit 2025於2025年9月9日至11日在美國加州聖克拉拉會議中心舉行,更多詳細資訊可以參考官方網站

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則