FB 建議貼文

選取貼文複製成功(包含文章連結)!

Intel Panther Lake處理器NPU詳解,效能小幅提升、尺寸驟降40%

Intel Panther Lake處理器NPU詳解,效能小幅提升、尺寸驟降40%

ADVERTISEMENT

Intel在2025年度Tech Tour.us活動中詳細說明Panther Lake處理器的架構,在看完內建顯示晶片後,我們接著深入瞭解全新的NPU 5神經處理器。

NPU 5節省晶片空間

Lunar Lake所搭載的Intel NPU 4神經處理器具有6組神經運算引擎,能夠提供48 TOPS的AI運算效能。而Panther Lake搭載的Intel NPU 5神經處理器雖然效能僅微幅提升至50 TOPS,但大幅縮減40%占用晶片面積。

延伸閱讀:
Computex 2024:Intel於Technology Tour Taiwan發表Lunar Lake處理器,帶來1.5倍GPU、3倍NPU效能
Intel AI Playground動手玩:在本機套用第三方SDXL模型生成圖像、使用AI聊天機器人
AMD Tech Day 2024(三):XDNA 2 AI運算架構解析,Block FP16資料類型運算效率倍增

另一方面,NPU 5也原生支援INT8與FP8資料類型,能在犧牲些微精確度的代價之下,提高1倍運算吞吐量,並且降低一半單位運算量的功耗,同時節省記憶體使用量。

NPU 5最大的改變之處在於將真正在進行運算工作的MAC矩陣(Multiply Accumulate,乘積累加運算)放大至前代2倍,並將神經運算引擎數量由6組縮減至3組,能夠在提供相近效能輸出的前提下,節省前、後端管線在整體運算單元中所占用的空間,在加上製程精進的紅利,達到縮減40%占用晶片面積的效果。

回顧應用Lunar Lake的NPU 4,能夠提供48 TOPS的AI運算效能。

Panther Lake整合之NPU 5則著重於提高面積效率,並對最新的工作負載進行最佳化。

簡單地說NPU 5前代之MAC矩陣放大2倍,在單一神經運算引擎中塞入更多運算單元。

原本NPU 4需要6組神經運算引擎才達到的MAC數量,NPU 5使用3組神經運算引擎就達到,有助於縮小整體面積。

NPU 5總共具有12,000組MAC,並共用4.5 MB之草稿記憶體(Scratchpad RAM),以及256 KB L2快取記憶體。

NPU 5的面積效率較NPU 4提高40%,也就是說在相同效能下能降低40%晶片面積。

NPU 5的MAC矩陣每時脈週期能進行2, 048次FP16資料類型運算,或是4,096次FP8、INT8資料類型運算。

FP8資料類型也支援較精準的BF8(E4M3,4指數Exponent,3尾數Mantissa),或是範圍較廣的HF8(E5M2)等格式。較FP16能夠節省記憶體傳輸量,並提高2倍吞吐量,最多節省2倍電力,且犧牲的精準度相當有限。

在Stable Diffusion圖像生成測試中,FP8資料類型能較FP16在同效能前提節省50%電力。

神經運算引擎內的資料轉換器支援FP32、FP16、BF16、FP8、INT8、INT4等格式轉換。

激勵函數(Activation Function)功能可以精準支援線性函數,並透過查找表支援更廣汎的非線性函數。

與NPU 4相比,NPU 5在住同資料類型與運算項目的表現最高提升2.5倍。FP8與FP16對比則是效能提升1.9倍。

全機AI運算效能高達180 TOPS 

Panther Lake整體具有下列3種運算單元能夠進行AI運算

  1. 中央處理器(CPU):最高10 TOPS AI運算效能。適合輕量且需要低延遲的AI工作負載。
  2. 繪圖處理器(GPU):最高120 TOPS AI運算效能。適合遊戲或創作生程式AI,但是耗電量比較高。
  3. 神經處理器(NPU):最高50 TOPS AI運算效能。具有較加的電力效率,適合需要長時間、背景運作的AI助理類型應用。

獨立軟體開發商(ISV)能夠針對AI應用程式的特性,並考慮使用情境、多工狀態與電力消耗等條件,在OneAPI應用程式介面的協助下,在開發程式階段決定將AI運算負載分配到1個或多個運算單元,充分壓榨效能並兼顧電力消耗。

筆者認為此舉是設計過程中,將NPU的運算效能控制在符合Microsoft Copilot+ PC系統需求,以提供理想的AI應用程式使用體驗,同時控制處理器的生產成本,是權衡性價比之後做取的取捨。若特定程式的負載更吃重,則可借助AI運算效能最高達到120 TOPS的Panther Lake 12 Xe GPU內建顯示晶片,加速完成工作的時間。

NPU 5具有50 TOPS之AI運算效能,符合Microsoft Copilot+ PC之系統需求。雖然效能較NPU 4雖然沒有顯著提升,但是原生支援FP8資料類型,且面積效率大幅提升40%。

Panther Lake的CPU、GPU、NPU等3種運算單元能夠提供最高總合180 TOPS的平台 AI運算效能。

Panther Lake也將支援最新的XeSS 2多重畫格生成,最多能開啟4X畫格生成設定以大幅提升遊戲的FPS效能,此外Xe 3顯示架構也有其他改善遊戲體驗的新功能,筆者將於另一篇文章詳細介紹,請讀者參考全文目錄繼續閱讀。

回到系列全文目錄

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則