FB 建議貼文

選取貼文複製成功(包含文章連結)!

Arm Lumex CSS平台搭配全新C1系列處理器,4種型號隨意混搭最高14核心效能怪獸

Arm Lumex CSS平台搭配全新C1系列處理器,4種型號隨意混搭最高14核心效能怪獸

ADVERTISEMENT

Arm最新推出的Lumex CSS平台具有4種不同型號的C1系列處理器可供選擇,搭配C1-DSU動態分享單元最高能夠組成最高14組實體核心處理器的SoC。

家族4成員亮相

Arm終端事業部產品管理總監Ronan Naugton於Arm Unlock大會介紹了最新發表採用Armv9.3架構的C1-Ultra、C1-Premium、C1-Pro、C1-Nano等4款C1系列處理器(CPU)核心。

延伸閱讀:
Arm發表類神經網路升頻技術,NPU嵌入GPU藉AI提升繪圖效能並節省電力
Arm遊戲畫面升頻與畫格生成技術詳細解說:透過小型模型平衡畫面效果與運算成本
Arm發表全新Lumex CSS平台,C1 CPU與Mali G1 GPU為旗艦級手機帶來25%效能增長
Lumex CSS平台搭配全新C1系列處理器,4種型號隨意組裝滿足最高14核心效能怪獸(本文)
Arm Lumex CSS平台Mali-G1系列繪圖處理器與平台功能解析,為旗艦級智慧型手機帶來2倍光線追蹤效能

C1-Ultra與C1-Premium為接替先前Cortex-X925的型號,定位為「超大核」的角色。前者的設計目標為追求極致效能,而後者則在降低些許效能的代價下,大幅縮小35%晶片尺寸,達到更理想的價格、效能、功耗平衡。

C1-Pro則為Cortex-A725的後續型號,屬於「大核」的定位,設計目標為提供持性的高效率運作,作為以電池驅動裝置的主力運算核心。C1-Nano則屬於「小核」是填補Cortex-A520的空間,具有最小的尺寸以及更高的電力效率,適合負則背景執行的程式,或是應用於穿戴式裝置。

上述4種CPU核心型號都支援SME2(Scalable Matrix Extension 2,第二代可擴展矩陣延伸指令集),能夠大幅提升矩陣運算效能,進而提高AI運算的效能,讓更多AI應用程式能夠於CPU執行。

雖然CPU的AI運算效能不如使用繪圖處理器(GPU)或神經處理器(NPU),但是有著更高的開發彈性,而且各種裝置都會具有CPU且碎片化的狀況較為輕微,因此對於AI應用程式、App的相容性比較高,其高度可程式化的優點,也讓它能夠支援更結省運算資源的4Bit甚至2Bit資料類型AI模型。

相對之下,有些裝置可能缺少GPU或NPU,或是即便具有GPU、NPU,但因由不同廠商提供而導致軟體不相容,造成無法啟用加速AI運算的窘境。

另一方面,由於在智慧型手機執行的AI應用程式通常搭配參數量比較低的小型模型,因此使用CPU進行運算比較不會遇到不堪負荷的狀況,且在CPU執行可以省下將資料搬遷到GPU或NPU的效能虛耗,節省保貴的頻寬與電力,並且還能降低些許延遲。衡量各種利弊得失後,使用在智慧型手機透過CPU 執行AI應用程式也不失為權宜之計。

需要注意的是,接替Cortex-A320的C1-Pico雖然也是採用「C1」命名,但它僅採用Armv9.2架構,因此並不屬於Lumex CSS產品系列的成員。

Arm終端事業部產品管理總監Ronan Naugton於Arm Unlock大會說明Lumex CSS平台的4款C1系列CPU核心。

4款新CPU中,由C1-Ultra與C1-Premium接替先前Cortex-X925的型號,而C1-Pro與C1-Nano則分別接替Cortex-A725與Cortex-A520。

C1-Ultra單執行緒效能領先前代Cortex-X925達25%,C1-Premium能在提供相對優秀的極致效能下縮小晶片佔用面積。C1-Pro較前代產品提高16%遊戲效能,C1-Nano則較前代產品節省26%電力。

C1 CPU叢集較前代產品效能平均提升15%,且平均節省12%電力。

不同運算單元的特性對照。CPU具有最佳的應用彈性,但效能表現較為平庸。GPU具有高度平行運算的特性,在應用彈性與效能的表現趨於平衡。NPU因為硬體架構專為矩陣運算設計,因此應用彈性最低,但運算效能與效率都最好。

在CPU執行AI應用程式最大的優點就是具有最佳相容性,對開發者來說也更加友善。

在SME2的協助下,CPU能在維持相同彈性的前提下提高AI運算效能,並改善電力效率。在CPU進行AI運算的額外好處是可以避免資料轉移造成的效能虛耗以保持低延遲,並具有高度可程式化的優勢。

C1系列CPU開啟SME2之後,可以在相同的AI運算負載下提高12%運算效能,並節省28%電力效耗。

SME2指令集改良1代的設計,能夠支援更多不同資料類型,具有更高的資料吞吐量與執行效率。

根據Arm提供的數據,SME2能將語音辨識的延遲降低4.7倍、提升LLM編碼速度4.7倍、提高語音生成速度2.8倍。

在C1-Pro開啟SME2之後,AI運算效能可以較關閉SME2時平均提升約3.7倍。

Lumex CSS平台與C1系列CPU效能分析

Ronan Naugton也在會中提出許多C1系列CPU的效能數據,筆者將相關簡報整理於下。

先看到旗艦級產品C1-Ultra,其GeekBench 6.3的測試成績較Cortex-X925提升25%,在相同效能下則能節省28%功耗。

C1-Permium則定位為次旗艦產品,它的晶片面積比C1-Ultra小35%,但可帶來35%優於C1-Pro的單核心效能,能為智慧型手機等產品帶來更理想的性價比。

C1-Pro的特點在兼具電力效率與持續效能輸出。與Cortex-A725相比,在相同時脈下效能最多可以提高16%並節省12%功耗。

C1-Pro在GeekBench 6.3測試中,效能較Cortex-A725提升11%,相同效能則節省26%功耗。

C1-Pro具有出色PPA(Performance、Power、Area,效能、功耗、面積)特性,在佔用相同晶片面積的情況下,效能最高可較Cortex-A78提升19%。

新的C1-Nano「小核」則適合應用於各種價位帶的產品。其電力效率較Cortex-A520提升26%,在增加2%晶片面積的前提下能夠提高約5.5%的效能。改量的預測、預取管線能改善讀取效能瓶頸負載10%以上效能表現。

以前後代平台的角度比較。4組C1-Pro加4組C1-Nano在相同時脈、快取記憶體容量的前提下,運算密度比4組Cotrex-A725加4組Cotrex-A520高出1倍。也就是說佔用晶片面積時可以提供2倍效能。

C1-DSU(DynamIQ Shared Unit,動態分享單元)較前代產品節省11%電力消耗,能夠在單一SoC上以任意組態配置最多14個C1系列CPU核心,滿足不同裝置的使用需求。

舉例來說,穿戴式裝置可以使用2組C1-Nano組態,而旗艦級智慧型手機則可使用2組C1-Ultra加上6組C1-Pro。

C1系列CPU在效能與電力效率上皆有長足進步,在AI部分更是有最高5倍效能、3倍電力效率的提升。

筆者將會在後續文章繼續介紹Lumex CSS平台所帶來的Mali-G1系列GPU以及平台功能,請讀者參考文首延伸閱讀部分瞭解更多資訊。

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則