神操作！工程師用四台 Mac Studio 打造 AI 叢集，1.5TB 記憶體效能逆天，硬體成本近 128 萬台幣

知名工程師 Jeff Geerling 成功串聯四台 M3 Ultra Mac Studio，打造出一個擁有 1.5TB 統一記憶體的 AI 運算叢集。這個叢集利用 macOS 26.2 的新功能 RDMA over Thunderbolt 5，在 Geekbench 6 測試中表現出色，甚至能執行其他系統無法運作的超大型 AI 模型，不過硬體成本也高達約新台幣 128 萬元。

哇賽！又有新玩法了！知名工程師 Jeff Geerling 最近完成了一項超狂的挑戰，他利用 macOS 26.2 最新的系統特性，成功把四台 M3 Ultra Mac Studio 串聯起來，打造出一台擁有 1.5TB 統一記憶體的 AI 運算叢集。

這次叢集能成功，關鍵就在於 macOS 26.2 導入了一項核心功能：「RDMA over Thunderbolt 5」。透過 Thunderbolt 5 介面，這項技術允許一台 Mac 直接讀取另一台的記憶體，而且還不需要 CPU 介入，聽起來是不是很厲害！

在 Geekbench 6 的多核心測試中，這個由 Mac Studio 組成的 AI 叢集，輕鬆就超越了 Dell Pro Max with GB10 和 Framework Desktop。它的雙精度浮點數效能更是達到 1 TFLOPS 以上，而且待機功耗還低於 10W，真的非常節能。

不只如此，在 AI 推論方面，表現也相當亮眼。單機執行 Llama 3.2 3B 模型時，每秒可以處理 154.6 個 token；而執行大型的 Llama 3.1 70B 模型時，每秒也能維持 14.1 個 token。這兩個測試的效能，都遠遠超越了其他競爭對手。

更讓人驚訝的是，當嘗試執行 DeepSeek R1 671B 這種超大型模型時，其他系統都無法正常運作，但 Mac Studio 叢集卻憑藉著它那 1.5TB 的統一記憶體，成功完成了這項艱鉅的挑戰！

RDMA over Thunderbolt 5 在這個 AI 叢集當中真的發揮了關鍵作用。啟用 RDMA 後，記憶體存取延遲從 TCP 的 300 微秒，大幅降到 50 微秒以下，這效能提升簡直是飛躍式成長！

在使用 exo 系統測試 Qwen3 235B 時，四台裝置每秒可以處理 31.9 個 token，比 llama.cpp TCP 快了一倍以上；測試 DeepSeek V3.1 更是達到每秒 32.5 個 token，表現非常突出。

不過，雖然 RDMA 表現出色，但在高負載時偶爾還是會出現系統當機的情況，這點可能還需要進一步優化。

當然，這種頂級效能也是要付出代價的。由 Mac Studio 組成的 AI 叢集，總硬體成本約為 40,000 美元 (約新台幣 128 萬元，人民幣約 28 萬元)。相較於其他兩個平台，這個價格確實更昂貴，但能有這樣的效能，或許對某些專業使用者來說還是很值得的。

FB 建議貼文

神操作！工程師用四台 Mac Studio 打造 AI 叢集，1.5TB 記憶體效能逆天，硬體成本近 128 萬台幣

《下一個收藏世代》特展登場：AVW 攜手 Maison JE Taipei 探討收藏文化的未來樣貌