
ADVERTISEMENT
俗話說得好,「三個臭皮匠、圍毆諸葛亮」,如果在AI運算領域也能串連多座資料中心進行分散式運算的話,能帶來什麼效益呢?
提出多項技術研討
NVIDIA將於2025年8月24至26日在美國史丹佛大學舉辦的Hot Chips 2025大會上進行許多重要議程,其中包含透過ConnectX-8 SuperNIC網路晶片串接機櫃級與資料中心級運算單元,由Blackwell架構GeForce RTX 50系列顯示卡驅動的神經渲染繪圖(Neural Rendering),矽光子共同封裝交換器(Co-Packaged Optics Switches,CPO),GB10 Superchip與DGX Spark迷你超級電腦,NVLink Fusion應用等多個重要項目。
延伸閱讀:
CES 2025:NVIDIA編輯日(上):RTX 50系列顯示卡與Blackwell架構特色解說
CES 2025 - NVIDIA編輯日(下):RTX 50系列顯示卡獨有DLSS 4多重畫格生成超級效能禁藥與Reflex低延遲技術
【GTC 2025】NVIDIA發表Blackwell Ultra GPU、GB300 NVL72伺服器,Photonic矽光子交換器節能又可靠
【GTC 2025】黃仁勳演說深入分析:提出「終極摩爾定律」,追求相同耗電更高效能
【COMPUTEX 2025】NVIDIA執行長黃仁勳Keynote重點整理,代理AI、物理AI、通用機器人趨勢以及NVLink Fusion半客製化AI基礎建設
而在這次Hot Chips 2025中的重要消息之一,就是透過乙太網路為基礎串接多座資料中心的Spectrum-XGS Ethernet互連技術。它與先前NVLink、ConnectX等在單一機櫃或資料中心範圍應用的技術不同,Spectrum-X Ethernet能夠做到跨資料中心串聯,達到遠端分散式運算的效果。
NVIDIA為這種技術概念稱為Scale-Around,它能打破資料中心的距離限制,將不同地理位置的運算節點整併為單一超大型算節,除了能提高整體運算效能之外,也可以擴充可用記憶體容量,以容納量體更大、參數更多的資料集或AI模型。
透過網路整合多座遠端機房
相較於提升單一運算節點效能的Scale-Up,或是串聯運算多個節點以提高整體效能的Scale-Out(但各運算節點仍在同一資料中心內),Scale-Around的概念更著重於串聯為於不同資料中心的遠端運算節點,提供超低延遲、高頻寬的資料交換管道,能夠編排(Orchestrating)多個資料中心的GPU對GPU(繪圖處理器,能夠加速AI運算)之間的龐大資料集的運算,將多座獨立的資料中心整合為單一超級AI工廠,以滿足超大量體(Giga-Scale)AI運算需求。
簡單地說,Scale-Around就是打電話叫遠方的兄弟趕來助陣,大家一起打群架的概念,透過整合多座資料中心的運算能力以帶來更高的整體效能輸出。
從理論上來看,Scale-Around概念由於資料傳輸距離較遠,與Scale-Out相比一定會有延遲較高、頻寬較低的缺點,但是它的優點則是能打破距離的隔閡,並且因多個資料中心為於不同地區,所以能舒緩單一電網供電的壓力,並且可以靈活調度不同資料中心進行整合運算,可以視各資料中心的負載情況、時區(通長夜間負載較輕且電費較便宜)進行最佳化資源調度,具有更高的使用彈性。
NVIDIA說明Spectrum-XGS Ethernet是以Spectrum-X Ethernet平台為基礎進化而來,NVIDIA創辦人暨執行長黃仁勳表示,AI工業革命正在發生中,而規模更大的AI工廠是必要的基礎建設,在Spectrum-XGS Ethernet的協助下,我們在現有的Scale-Up與Scale-Out之外導入創新的Scale-Around概念,將位於不同成市、國家、大陸的資料中心匯集為超大量體的超級AI工廠。
關於更多Hot Chips 2025的資訊以及議程直播(需收費),可以參考Hot Chips官方網站。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!