Hot Chips 2025：NVIDIA發表Spectrum-XGS Ethernet，實現Scale-Around分散式運算

俗話說得好，「三個臭皮匠、圍毆諸葛亮」，如果在AI運算領域也能串連多座資料中心進行分散式運算的話，能帶來什麼效益呢？

提出多項技術研討

NVIDIA將於2025年8月24至26日在美國史丹佛大學舉辦的Hot Chips 2025大會上進行許多重要議程，其中包含透過ConnectX-8 SuperNIC網路晶片串接機櫃級與資料中心級運算單元，由Blackwell架構GeForce RTX 50系列顯示卡驅動的神經渲染繪圖（Neural Rendering），矽光子共同封裝交換器（Co-Packaged Optics Switches，CPO），GB10 Superchip與DGX Spark迷你超級電腦，NVLink Fusion應用等多個重要項目。

延伸閱讀：
CES 2025：NVIDIA編輯日（上）：RTX 50系列顯示卡與Blackwell架構特色解說
 CES 2025 - NVIDIA編輯日（下）：RTX 50系列顯示卡獨有DLSS 4多重畫格生成超級效能禁藥與Reflex低延遲技術
 【GTC 2025】NVIDIA發表Blackwell Ultra GPU、GB300 NVL72伺服器，Photonic矽光子交換器節能又可靠
 【GTC 2025】黃仁勳演說深入分析：提出「終極摩爾定律」，追求相同耗電更高效能
 【COMPUTEX 2025】NVIDIA執行長黃仁勳Keynote重點整理，代理AI、物理AI、通用機器人趨勢以及NVLink Fusion半客製化AI基礎建設

而在這次Hot Chips 2025中的重要消息之一，就是透過乙太網路為基礎串接多座資料中心的Spectrum-XGS Ethernet互連技術。它與先前NVLink、ConnectX等在單一機櫃或資料中心範圍應用的技術不同，Spectrum-X Ethernet能夠做到跨資料中心串聯，達到遠端分散式運算的效果。

NVIDIA為這種技術概念稱為Scale-Around，它能打破資料中心的距離限制，將不同地理位置的運算節點整併為單一超大型算節，除了能提高整體運算效能之外，也可以擴充可用記憶體容量，以容納量體更大、參數更多的資料集或AI模型。

▲ NVIDIA在說明會中提到，隨著推理式與代理式AI的興起，應用程式對AI運算效能的需求業隨之增高。

▲ NVIDIA列舉速度、互通性、整合性、擴展性、效率、成本是AI推論的6大挑戰。

▲ NVIDIA將在Hot Chips 2025大會舉辦資料互連、神經渲染等多個主題的研討議程。

▲ NVLink Fusion提供半客製化AI基礎建設彈性，合作夥伴可以使用客製化處理器、網路介面、ASIC（特定應用積體電路）F搭配NVIDIA的GPU建置伺服器與機櫃。

▲ NVFP4是使用4bit精度的資料類型，能夠在AI訓練與推論運算時節省運算資源與占用的記憶體容量、傳輸頻寬，並提供接近BF16的精確度。

▲ NVIDIA採用類似Tick-Tock的節奏更新產品，2025年推出Blackwell，2026年則推出強化版Blackwell Ultra，2027年推進至Rubin架構。

透過網路整合多座遠端機房

相較於提升單一運算節點效能的Scale-Up，或是串聯運算多個節點以提高整體效能的Scale-Out（但各運算節點仍在同一資料中心內），Scale-Around的概念更著重於串聯為於不同資料中心的遠端運算節點，提供超低延遲、高頻寬的資料交換管道，能夠編排（Orchestrating）多個資料中心的GPU對GPU（繪圖處理器，能夠加速AI運算）之間的龐大資料集的運算，將多座獨立的資料中心整合為單一超級AI工廠，以滿足超大量體（Giga-Scale）AI運算需求。

簡單地說，Scale-Around就是打電話叫遠方的兄弟趕來助陣，大家一起打群架的概念，透過整合多座資料中心的運算能力以帶來更高的整體效能輸出。

從理論上來看，Scale-Around概念由於資料傳輸距離較遠，與Scale-Out相比一定會有延遲較高、頻寬較低的缺點，但是它的優點則是能打破距離的隔閡，並且因多個資料中心為於不同地區，所以能舒緩單一電網供電的壓力，並且可以靈活調度不同資料中心進行整合運算，可以視各資料中心的負載情況、時區（通長夜間負載較輕且電費較便宜）進行最佳化資源調度，具有更高的使用彈性。

NVIDIA說明Spectrum-XGS Ethernet是以Spectrum-X Ethernet平台為基礎進化而來，NVIDIA創辦人暨執行長黃仁勳表示，AI工業革命正在發生中，而規模更大的AI工廠是必要的基礎建設，在Spectrum-XGS Ethernet的協助下，我們在現有的Scale-Up與Scale-Out之外導入創新的Scale-Around概念，將位於不同成市、國家、大陸的資料中心匯集為超大量體的超級AI工廠。

▲ 不同於Scale-Up提升單一運算單元的效能，以及Scale-Out串聯多個運算單元以提升單一節點的效能，NVIDIA提出全新的Scale-Around概念，透過網路串聯多個資料中心的運算節點，進一步提升整體運算效能。

關於更多Hot Chips 2025的資訊以及議程直播（需收費），可以參考Hot Chips官方網站。