FB 建議貼文

選取貼文複製成功(包含文章連結)!

Arm Unlocked Taipei 2025:從雲端到邊緣的AI運算平台策略

Arm Unlocked Taipei 2025:從雲端到邊緣的AI運算平台策略

ADVERTISEMENT

繼先前在亞太區域4個城市之後,Arm於2025年11月13日在台北舉行壓軸場Arm Unlocked Taipei 2025大會,分享對於AI產業的觀察與產品規劃。

多層面強化AI效能

Arm日前於Unlocked中國上海場次發表了全新Lumex CSS平台,其中包含C1系列處理器(CPU)與Mali G1系列繪圖處理器(GPU),前者支援能夠加速矩陣與AI運算的SME 2指令集,後者則帶來更強悍的繪圖與AI運算效能。更多詳細說明請參考下方相關報導。

延伸閱讀:
Arm發表全新Lumex CSS平台,C1 CPU與Mali G1 GPU為旗艦級手機帶來25%效能增長
Arm Lumex CSS平台搭配全新C1系列處理器,4種型號隨意混搭最高14核心效能怪獸
Arm Lumex CSS平台Mali-G1系列繪圖處理器與平台功能解析,為旗艦級智慧型手機帶來2倍光線追蹤效能

Arm終端事業部產品管理副總經理James McNiven在《塑造智慧消費性電子的未來:Arm 終端產品藍圖》主題演說中再次介紹Lumex CSS平台以及C1 CPU與Mali G1 GPU的特色,並補充系統IP與軟體堆疊等資訊,筆者將現場簡報整理於下。

Arm終端事業部產品管理副總經理James McNiven在《塑造智慧消費性電子的未來:Arm 終端產品藍圖》主題演說中介紹全新Lumex CSS平台特色。

Arm透過Neoverse(資料中心)、Zena(智慧車輛)、Lumex(行動裝置)、Niva(個人電腦)、Orbis(物聯網)等產品線滿足差異化的AI運算需求。

CSS平台以中的C1 CPU較前代產品有雙位數百分比的IPC(Instructions per Cycle,每周期指令)效能成長,並支援能帶來5倍AI效能的SME 2指令集。Mali G1 GPU在繪圖與AI部分的效能成長幅度也達到雙位數百分比,光線追蹤效能則達到2倍。

4款新CPU中,由C1-Ultra與C1-Premium接替先前Cortex-X925的型號,而C1-Pro與C1-Nano則分別接替Cortex-A725與Cortex-A520。。

Arm預估到了2030年,SME與SME2指令集將為超過30億台裝置提供總量達到100億TOPS的AI運算效能。。

James McNiven也補充了系統IP的優勢,SI L1系統互連能夠降低75%互連延遲,MMU L1記憶體管理單元最多可以降低83% TBU(Translation Buffer Unit,轉譯緩衝單元)延遲。

全新Lumex CSS平台相容於多間晶圓代工廠的2、3 nm製程節點,可以帶來更出色的PPA(Performance、Power、Area,效能、省電、尺寸)優勢。

Arm也在由韌體、虛擬機器、核心、函數庫與執行環境、運算框架、應用程式等軟體堆疊的多個環節導入SME 2支援,提升AI運算的效能表現。

改善Windows on Arm效能與

Arm首席應用工程式余志誠在《Windows on Arm應用程式效能與可靠性的實務知識》主題演說中,提到軟體最佳化對Windows on Arm使用者體驗的重要性,並介紹Arm提供的多種資源,協助開發者將應用程式移植為原生Arm版本,以展現更高的執行效能並提高筆記型電腦的電池續航力。

Arm首席應用工程式余志誠在《Windows on Arm應用程式效能與可靠性的實務知識》主題演說中介紹原生Arm架構應用程式的優勢。

Arm與Microsoft提供多種程式開發工具、工具鏈(Toolchain)、運算框架來簡化原生Arm架構應用程式的開發流程。

原生Arm架構應用程式(紅線)在處理器佔用率與記憶體使用量都低於x86模擬器(藍線),有助於帶來更流暢的使用體驗。

在同時使用視訊、視訊特效、螢幕分享、語音等繁重負載的情況下,x86模擬器(藍線)的耗電量大約為原生Arm架構應用程式(紅線)的1.95倍,可見原生Arm架構應用對於筆記型電腦的電池續航力有很大的幫助。

Arm與Microsoft也提供豐富的線上學習資源,協助開發者能夠瞭解程式最佳化的概念與實作方式,進而達成將應用程式移植為原生Arm版本。

3種運算單元各展所長

Arm資深產品經理Vahan Ter- Grigotyan在《橫跨 CPU 與 GPU:打造無所不在的裝置端人工智慧》主題演說中說明不同運算單元的特性,分析CPU、GPU、NPU(神經處理器)所擅長的使用情境。

CPU具有最高的普及率,基本上所有裝置都有CPU,有利於將AI應用程式推廣給最多數的使用者。雖然它的架構並非最有利於AI運算常用的矩陣迭代運算,但是具有最佳軟體彈性,能夠在不需更新硬體的前提下相容最新的AI模型或是資料類型,而且在運作過程具有無需資料搬移、即時運算等優勢,延遲低於其他種類運算單元。

而GPU則有次高的普及率,大多數的智慧型手機、平板電腦都具有GPU,可程式化的特性讓它具備較好的軟體相容性,適合應用於高強度AI運算或與圖像相關的AI應用程式。

NPU的普及率比較低,部分中、低階智慧型手機、平板電腦可能不會搭載NPU,但是它具有為矩陣迭代運算需求特化的架構,具有相對出色的AI運算效能與電力效率,適合需要長時間或於背景執行的AI功能。

Arm資深產品經理Vahan Ter- Grigotyan在《橫跨 CPU 與 GPU:打造無所不在的裝置端人工智慧》主題演說中說明CPU、GPU、NPU等運算單元的特性。

CPU適合應用於小型、低延遲的AI運算負載,GPU適合與圖像相關應用,NPU則適合各類AI負載。

CPU具有高度普及與高軟體相容性等優勢,能夠達到「Develop once deploy everywhere」(寫一次程式即可部署到任何裝置)的優勢。

大多數的智慧型手機、平板電腦都具有GPU,也很適合用於AI應用。

Vahan Ter- Grigotyan補充相較於遊戲應用,透過GPU進行AI運算所消耗的記憶體電力大約相差5倍,因此改善記憶體的運作效率與功耗也相當重要。

CPU、GPU、NPU等運算單元在代理式AI運算的不同階段能夠各展所長。

利如Google相簿中的橡皮擦功能也利用了CPU、GPU等運算單元。

總結來說,CPU適合對記憶體延遲敏感的負載,GPU適合與影像相關的應用,NPU適合高度量化與重複的推論工作。

Arm除了在消費性產品中提供完整的運算系統與解決方案,在資料中心、智慧車輛、物聯網等使用情境也都有推出對應的產品,滿足各種不同量體與使用情境的AI運算需求。

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則