FB 建議貼文

選取貼文複製成功(包含文章連結)!

Hot Chips 2025:NVIDIA發表Spectrum-XGS Ethernet,實現Scale-Around分散式運算

Hot Chips 2025:NVIDIA發表Spectrum-XGS Ethernet,實現Scale-Around分散式運算

ADVERTISEMENT

俗話說得好,「三個臭皮匠、圍毆諸葛亮」,如果在AI運算領域也能串連多座資料中心進行分散式運算的話,能帶來什麼效益呢?

提出多項技術研討

NVIDIA將於2025年8月24至26日在美國史丹佛大學舉辦的Hot Chips 2025大會上進行許多重要議程,其中包含透過ConnectX-8 SuperNIC網路晶片串接機櫃級與資料中心級運算單元,由Blackwell架構GeForce RTX 50系列顯示卡驅動的神經渲染繪圖(Neural Rendering),矽光子共同封裝交換器(Co-Packaged Optics Switches,CPO),GB10 Superchip與DGX Spark迷你超級電腦,NVLink Fusion應用等多個重要項目。

延伸閱讀:
CES 2025:NVIDIA編輯日(上):RTX 50系列顯示卡與Blackwell架構特色解說
CES 2025 - NVIDIA編輯日(下):RTX 50系列顯示卡獨有DLSS 4多重畫格生成超級效能禁藥與Reflex低延遲技術
【GTC 2025】NVIDIA發表Blackwell Ultra GPU、GB300 NVL72伺服器,Photonic矽光子交換器節能又可靠
【GTC 2025】黃仁勳演說深入分析:提出「終極摩爾定律」,追求相同耗電更高效能
【COMPUTEX 2025】NVIDIA執行長黃仁勳Keynote重點整理,代理AI、物理AI、通用機器人趨勢以及NVLink Fusion半客製化AI基礎建設

而在這次Hot Chips 2025中的重要消息之一,就是透過乙太網路為基礎串接多座資料中心的Spectrum-XGS Ethernet互連技術。它與先前NVLink、ConnectX等在單一機櫃或資料中心範圍應用的技術不同,Spectrum-X Ethernet能夠做到跨資料中心串聯,達到遠端分散式運算的效果。

NVIDIA為這種技術概念稱為Scale-Around,它能打破資料中心的距離限制,將不同地理位置的運算節點整併為單一超大型算節,除了能提高整體運算效能之外,也可以擴充可用記憶體容量,以容納量體更大、參數更多的資料集或AI模型。

NVIDIA在說明會中提到,隨著推理式與代理式AI的興起,應用程式對AI運算效能的需求業隨之增高。

NVIDIA列舉速度、互通性、整合性、擴展性、效率、成本是AI推論的6大挑戰。

NVIDIA將在Hot Chips 2025大會舉辦資料互連、神經渲染等多個主題的研討議程。

NVLink Fusion提供半客製化AI基礎建設彈性,合作夥伴可以使用客製化處理器、網路介面、ASIC(特定應用積體電路)F搭配NVIDIA的GPU建置伺服器與機櫃。

NVFP4是使用4bit精度的資料類型,能夠在AI訓練與推論運算時節省運算資源與占用的記憶體容量、傳輸頻寬,並提供接近BF16的精確度。

NVIDIA採用類似Tick-Tock的節奏更新產品,2025年推出Blackwell,2026年則推出強化版Blackwell Ultra,2027年推進至Rubin架構。

透過網路整合多座遠端機房

相較於提升單一運算節點效能的Scale-Up,或是串聯運算多個節點以提高整體效能的Scale-Out(但各運算節點仍在同一資料中心內),Scale-Around的概念更著重於串聯為於不同資料中心的遠端運算節點,提供超低延遲、高頻寬的資料交換管道,能夠編排(Orchestrating)多個資料中心的GPU對GPU(繪圖處理器,能夠加速AI運算)之間的龐大資料集的運算,將多座獨立的資料中心整合為單一超級AI工廠,以滿足超大量體(Giga-Scale)AI運算需求。

簡單地說,Scale-Around就是打電話叫遠方的兄弟趕來助陣,大家一起打群架的概念,透過整合多座資料中心的運算能力以帶來更高的整體效能輸出。

從理論上來看,Scale-Around概念由於資料傳輸距離較遠,與Scale-Out相比一定會有延遲較高、頻寬較低的缺點,但是它的優點則是能打破距離的隔閡,並且因多個資料中心為於不同地區,所以能舒緩單一電網供電的壓力,並且可以靈活調度不同資料中心進行整合運算,可以視各資料中心的負載情況、時區(通長夜間負載較輕且電費較便宜)進行最佳化資源調度,具有更高的使用彈性。

NVIDIA說明Spectrum-XGS Ethernet是以Spectrum-X Ethernet平台為基礎進化而來,NVIDIA創辦人暨執行長黃仁勳表示,AI工業革命正在發生中,而規模更大的AI工廠是必要的基礎建設,在Spectrum-XGS Ethernet的協助下,我們在現有的Scale-Up與Scale-Out之外導入創新的Scale-Around概念,將位於不同成市、國家、大陸的資料中心匯集為超大量體的超級AI工廠。

不同於Scale-Up提升單一運算單元的效能,以及Scale-Out串聯多個運算單元以提升單一節點的效能,NVIDIA提出全新的Scale-Around概念,透過網路串聯多個資料中心的運算節點,進一步提升整體運算效能。

關於更多Hot Chips 2025的資訊以及議程直播(需收費),可以參考Hot Chips官方網站

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則