
ADVERTISEMENT
NVIDIA於AI Infra Summit 2025(人工智慧基礎設施高峰會)帶來最新MLPerf Inference基準測試成績,使用Blackwell GPU搭配分離運算技術,能在不變動硬體的前提下帶來近50%效能增益。
AI推論也有效能禁藥
筆者在前文提到分離運算(Disaggregated Serving)的概念,NVIDIA除了將它利用在下代的Rubin CPX GPU之外,也將其導入Blackwell架構GPU,將現有的GB200 NVL 72拆分為2個工作群組,分工合作發揮1加1大於2的效能增益。
延伸閱讀:
【GTC 2025】黃仁勳演說深入分析:提出「終極摩爾定律」,追求相同耗電更高效能
NVIDIA於AI Infra Summit 2025發表Rubin CPX GPU,透過分離運算提升6倍AI推論效能(工作中)
在Llama 3.1 405B Interactive測試中,GB200 NVL 72的72組Blackwell GPU被拆分為56組負責第1階段的前後文分析與預填寫(Context / Prefill),剩餘的16組負責第2階段則為生成與解碼(Generation / Decode),相較於未分組的運算方式,能夠提高近50%的效能增益。
在新提交的MLPerf Inference基準測試成績中,單組Blackwell GPU執行Llama 3.1 8B的效能達每秒15,384字詞,表現最佳的競爭對手單晶片效能僅每秒255字詞,彼此相差68倍,另外3項測試則是沒有任何競爭對手提交測試成績。
AI Infra Summit 2025於2025年9月9日至11日在美國加州聖克拉拉會議中心舉行,更多詳細資訊可以參考官方網站。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!