FB 建議貼文

選取貼文複製成功(包含文章連結)!

神操作!工程師用四台 Mac Studio 打造 AI 叢集,1.5TB 記憶體效能逆天,硬體成本近 128 萬台幣

神操作!工程師用四台 Mac Studio 打造 AI 叢集,1.5TB 記憶體效能逆天,硬體成本近 128 萬台幣

知名工程師 Jeff Geerling 成功串聯四台 M3 Ultra Mac Studio,打造出一個擁有 1.5TB 統一記憶體的 AI 運算叢集。這個叢集利用 macOS 26.2 的新功能 RDMA over Thunderbolt 5,在 Geekbench 6 測試中表現出色,甚至能執行其他系統無法運作的超大型 AI 模型,不過硬體成本也高達約新台幣 128 萬元。

哇賽!又有新玩法了!知名工程師 Jeff Geerling 最近完成了一項超狂的挑戰,他利用 macOS 26.2 最新的系統特性,成功把四台 M3 Ultra Mac Studio 串聯起來,打造出一台擁有 1.5TB 統一記憶體的 AI 運算叢集。

這次叢集能成功,關鍵就在於 macOS 26.2 導入了一項核心功能:「RDMA over Thunderbolt 5」。透過 Thunderbolt 5 介面,這項技術允許一台 Mac 直接讀取另一台的記憶體,而且還不需要 CPU 介入,聽起來是不是很厲害!

在 Geekbench 6 的多核心測試中,這個由 Mac Studio 組成的 AI 叢集,輕鬆就超越了 Dell Pro Max with GB10 和 Framework Desktop。它的雙精度浮點數效能更是達到 1 TFLOPS 以上,而且待機功耗還低於 10W,真的非常節能。

神操作!工程師用四台 Mac Studio 打造 AI 叢集,1.5TB 記憶體效能逆天,硬體成本近 128 萬台幣

神操作!工程師用四台 Mac Studio 打造 AI 叢集,1.5TB 記憶體效能逆天,硬體成本近 128 萬台幣

不只如此,在 AI 推論方面,表現也相當亮眼。單機執行 Llama 3.2 3B 模型時,每秒可以處理 154.6 個 token;而執行大型的 Llama 3.1 70B 模型時,每秒也能維持 14.1 個 token。這兩個測試的效能,都遠遠超越了其他競爭對手。

神操作!工程師用四台 Mac Studio 打造 AI 叢集,1.5TB 記憶體效能逆天,硬體成本近 128 萬台幣

更讓人驚訝的是,當嘗試執行 DeepSeek R1 671B 這種超大型模型時,其他系統都無法正常運作,但 Mac Studio 叢集卻憑藉著它那 1.5TB 的統一記憶體,成功完成了這項艱鉅的挑戰!

RDMA over Thunderbolt 5 在這個 AI 叢集當中真的發揮了關鍵作用。啟用 RDMA 後,記憶體存取延遲從 TCP 的 300 微秒,大幅降到 50 微秒以下,這效能提升簡直是飛躍式成長!

神操作!工程師用四台 Mac Studio 打造 AI 叢集,1.5TB 記憶體效能逆天,硬體成本近 128 萬台幣

神操作!工程師用四台 Mac Studio 打造 AI 叢集,1.5TB 記憶體效能逆天,硬體成本近 128 萬台幣

神操作!工程師用四台 Mac Studio 打造 AI 叢集,1.5TB 記憶體效能逆天,硬體成本近 128 萬台幣

在使用 exo 系統測試 Qwen3 235B 時,四台裝置每秒可以處理 31.9 個 token,比 llama.cpp TCP 快了一倍以上;測試 DeepSeek V3.1 更是達到每秒 32.5 個 token,表現非常突出。

不過,雖然 RDMA 表現出色,但在高負載時偶爾還是會出現系統當機的情況,這點可能還需要進一步優化。

神操作!工程師用四台 Mac Studio 打造 AI 叢集,1.5TB 記憶體效能逆天,硬體成本近 128 萬台幣

當然,這種頂級效能也是要付出代價的。由 Mac Studio 組成的 AI 叢集,總硬體成本約為 40,000 美元 (約新台幣 128 萬元,人民幣約 28 萬元)。相較於其他兩個平台,這個價格確實更昂貴,但能有這樣的效能,或許對某些專業使用者來說還是很值得的。

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則