AMD 為了對抗 NVIDIA 在 AI 領域的統治地位,近期在軟體生態系上可是動作頻頻。官方釋出了 ROCm 開源軟體堆疊的 7.2.0 版本,這次更新可說是「乾貨滿滿」,不僅擴大了硬體支援名單,更針對目前市場上最熱門的開源模型如 Llama 3 和 DeepSeek 進行了深度最佳化,顯示紅隊在 AI 戰場上的決心。
AMD 上週推出的 ROCm 7.2.0 版本,重點在於強化軟硬體整合的效率。對於開發者來說,最感興趣的莫過於對新硬體的正式支援。
針對熱門模型「動刀」,推論速度再提升
ROCm 7.2.0 正式將支援範圍延伸至多款獨立顯卡與處理器。名單中包括Radeon RX 9060 XT LP(註:此型號較罕見,可能為特定市場或 OEM 版本)和主流的 Radeon RX 7700。
更重要的是,這次也納入了近期話題性十足的 Ryzen AI 400 系列處理器,這意味著 AMD 正積極將 AI 開發環境從伺服器端延伸到終端的 AI PC 上。
在效能調校方面,AMD 這次針對旗艦級加速器 Instinct MI355X 下足了功夫。特別是在運行 Meta 的 Llama 3.1 405B 巨型模型時,透過核心層級(Kernel-level)的調整與記憶體頻寬的最佳化,成功提升了資料傳輸量並顯著降低延遲,這對於需要快速反應的 AI 應用來說至關重要。
此外,針對 Llama 3 70B 和 Llama 2 70B 等主流大語言模型,ROCm 7.2.0 在 MI355X 與 MI350X 上也都有專屬的效能最佳化。
值得注意的是,這次更新也跟上了近期 AI 圈的熱門話題。針對 Instinct MI300X 加速器,AMD 特別最佳化了智譜 GLM-4.6 模型的矩陣乘法(GEMM)運算子效能。同時,也針對近期爆紅的 DeepSeek 模型所使用的 DeepEP 開源通訊函式庫進行了改善。這顯示 AMD 的軟體團隊正緊盯著開源社群的最新動態,確保自家硬體能跑得動最新的模型。
除了上述亮點,ROCm 7.2.0 還帶來了一系列底層改進,例如提升 HIP 執行時期(Runtime)的效率,以及新增對多 GPU 節點的電源管理功能,讓資料中心的營運更具彈性。
- 延伸閱讀:AMD 宣布 PyTorch on ROCm 正式支援 Windows!Radeon 顯卡將也能玩ComfyUI、本地端LLM
- 延伸閱讀:AMD於Advancing AI 2025發表Instinct MI350系列AI加速器,ROCm 7軟體堆疊改善效能達3.6倍
- 延伸閱讀:AMD 宣布 ROCm 正式登上 Windows:要算力不再只靠CUDA、消費級顯示卡也將即時支援
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!