AMD ROCm 7.2.0超有感升級！Llama 3、DeepSeek跑更快，連Ryzen AI PC都支援啦！

AMD 為了對抗 NVIDIA 在 AI 領域的統治地位，近期在軟體生態系上可是動作頻頻。官方釋出了 ROCm 開源軟體堆疊的 7.2.0 版本，這次更新可說是「乾貨滿滿」，不僅擴大了硬體支援名單，更針對目前市場上最熱門的開源模型如 Llama 3 和 DeepSeek 進行了深度最佳化，顯示紅隊在 AI 戰場上的決心。

AMD 上週推出的 ROCm 7.2.0 版本，重點在於強化軟硬體整合的效率。對於開發者來說，最感興趣的莫過於對新硬體的正式支援。

針對熱門模型「動刀」，推論速度再提升

ROCm 7.2.0 正式將支援範圍延伸至多款獨立顯卡與處理器。名單中包括Radeon RX 9060 XT LP（註：此型號較罕見，可能為特定市場或 OEM 版本）和主流的 Radeon RX 7700。

更重要的是，這次也納入了近期話題性十足的 Ryzen AI 400 系列處理器，這意味著 AMD 正積極將 AI 開發環境從伺服器端延伸到終端的 AI PC 上。

在效能調校方面，AMD 這次針對旗艦級加速器 Instinct MI355X 下足了功夫。特別是在運行 Meta 的 Llama 3.1 405B 巨型模型時，透過核心層級（Kernel-level）的調整與記憶體頻寬的最佳化，成功提升了資料傳輸量並顯著降低延遲，這對於需要快速反應的 AI 應用來說至關重要。

此外，針對 Llama 3 70B 和 Llama 2 70B 等主流大語言模型，ROCm 7.2.0 在 MI355X 與 MI350X 上也都有專屬的效能最佳化。

值得注意的是，這次更新也跟上了近期 AI 圈的熱門話題。針對 Instinct MI300X 加速器，AMD 特別最佳化了智譜 GLM-4.6 模型的矩陣乘法（GEMM）運算子效能。同時，也針對近期爆紅的 DeepSeek 模型所使用的 DeepEP 開源通訊函式庫進行了改善。這顯示 AMD 的軟體團隊正緊盯著開源社群的最新動態，確保自家硬體能跑得動最新的模型。

除了上述亮點，ROCm 7.2.0 還帶來了一系列底層改進，例如提升 HIP 執行時期（Runtime）的效率，以及新增對多 GPU 節點的電源管理功能，讓資料中心的營運更具彈性。