FB 建議貼文

選取貼文複製成功(包含文章連結)!

AMD ROCm 7.2.0超有感升級!Llama 3、DeepSeek跑更快,連Ryzen AI PC都支援啦!

AMD ROCm 7.2.0超有感升級!Llama 3、DeepSeek跑更快,連Ryzen AI PC都支援啦!

AMD 為了對抗 NVIDIA 在 AI 領域的統治地位,近期在軟體生態系上可是動作頻頻。官方釋出了 ROCm 開源軟體堆疊的 7.2.0 版本,這次更新可說是「乾貨滿滿」,不僅擴大了硬體支援名單,更針對目前市場上最熱門的開源模型如 Llama 3 和 DeepSeek 進行了深度最佳化,顯示紅隊在 AI 戰場上的決心。

AMD 上週推出的 ROCm 7.2.0 版本,重點在於強化軟硬體整合的效率。對於開發者來說,最感興趣的莫過於對新硬體的正式支援。

針對熱門模型「動刀」,推論速度再提升

ROCm 7.2.0 正式將支援範圍延伸至多款獨立顯卡與處理器。名單中包括Radeon RX 9060 XT LP(註:此型號較罕見,可能為特定市場或 OEM 版本)和主流的 Radeon RX 7700。

更重要的是,這次也納入了近期話題性十足的 Ryzen AI 400 系列處理器,這意味著 AMD 正積極將 AI 開發環境從伺服器端延伸到終端的 AI PC 上。

在效能調校方面,AMD 這次針對旗艦級加速器 Instinct MI355X 下足了功夫。特別是在運行 Meta 的 Llama 3.1 405B 巨型模型時,透過核心層級(Kernel-level)的調整與記憶體頻寬的最佳化,成功提升了資料傳輸量並顯著降低延遲,這對於需要快速反應的 AI 應用來說至關重要。

此外,針對 Llama 3 70B 和 Llama 2 70B 等主流大語言模型,ROCm 7.2.0 在 MI355X 與 MI350X 上也都有專屬的效能最佳化。

值得注意的是,這次更新也跟上了近期 AI 圈的熱門話題。針對 Instinct MI300X 加速器,AMD 特別最佳化了智譜 GLM-4.6 模型的矩陣乘法(GEMM)運算子效能。同時,也針對近期爆紅的 DeepSeek 模型所使用的 DeepEP 開源通訊函式庫進行了改善。這顯示 AMD 的軟體團隊正緊盯著開源社群的最新動態,確保自家硬體能跑得動最新的模型。

除了上述亮點,ROCm 7.2.0 還帶來了一系列底層改進,例如提升 HIP 執行時期(Runtime)的效率,以及新增對多 GPU 節點的電源管理功能,讓資料中心的營運更具彈性。

 

 

NetEase
作者

網易科技,有態度的科技門戶!關注微信公眾號(tech_163),看有態度的深度內容。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則