NVIDIA 於 AI Infra Summit 發表最新 MLPerf Inference 基準測試結果，透過分離運算提升近 50% 效能

NVIDIA於AI Infra Summit 2025（人工智慧基礎設施高峰會）帶來最新MLPerf Inference基準測試成績，使用Blackwell GPU搭配分離運算技術，能在不變動硬體的前提下帶來近50%效能增益。

AI推論也有效能禁藥

筆者在前文提到分離運算（Disaggregated Serving）的概念，NVIDIA除了將它利用在下代的Rubin CPX GPU之外，也將其導入Blackwell架構GPU，將現有的GB200 NVL 72拆分為2個工作群組，分工合作發揮1加1大於2的效能增益。

延伸閱讀：
【GTC 2025】黃仁勳演說深入分析：提出「終極摩爾定律」，追求相同耗電更高效能
 NVIDIA於AI Infra Summit 2025發表Rubin CPX GPU，透過分離運算提升6倍AI推論效能

在Llama 3.1 405B Interactive測試中，GB200 NVL 72的72組Blackwell GPU被拆分為56組負責第1階段的前後文分析與預填寫（Context / Prefill），剩餘的16組負責第2階段則為生成與解碼（Generation / Decode），相較於未分組的運算方式，能夠提高近50%的效能增益。

在新提交的MLPerf Inference基準測試成績中，單組Blackwell GPU執行Llama 3.1 8B的效能達每秒15,384字詞，表現最佳的競爭對手單晶片效能僅每秒255字詞，彼此相差68倍，另外3項測試則是沒有任何競爭對手提交測試成績。

▲ 在Llama 3.1 405B Interactive測試中，將GB200 NVL 72拆分為2個工作群組，能夠提高近50%的效能增益，讓整體效能達到Hopper架構GPU的5.4倍。