FB 建議貼文

選取貼文複製成功(包含文章連結)!

Intel Panther Lake處理器NPU詳解,效能小幅提升、尺寸驟降40%

Intel Panther Lake處理器NPU詳解,效能小幅提升、尺寸驟降40%

ADVERTISEMENT

Intel在2025年度Tech Tour.us活動中詳細說明Panther Lake處理器的架構,在看完內建顯示晶片後,我們接著深入瞭解全新的NPU 5神經處理器。

NPU 5節省晶片空間

Lunar Lake所搭載的Intel NPU 4神經處理器具有6組神經運算引擎,能夠提供48 TOPS的AI運算效能。而Panther Lake搭載的Intel NPU 5神經處理器雖然效能僅微幅提升至50 TOPS,但大幅縮減40%占用晶片面積。

延伸閱讀:
Computex 2024:Intel於Technology Tour Taiwan發表Lunar Lake處理器,帶來1.5倍GPU、3倍NPU效能
Intel AI Playground動手玩:在本機套用第三方SDXL模型生成圖像、使用AI聊天機器人
AMD Tech Day 2024(三):XDNA 2 AI運算架構解析,Block FP16資料類型運算效率倍增

另一方面,NPU 5也原生支援INT8與FP8資料類型,能在犧牲些微精確度的代價之下,提高1倍運算吞吐量,並且降低一半單位運算量的功耗,同時節省記憶體使用量。

NPU 5最大的改變之處在於將真正在進行運算工作的MAC矩陣(Multiply Accumulate,乘積累加運算)放大至前代2倍,並將神經運算引擎數量由6組縮減至3組,能夠在提供相近效能輸出的前提下,節省前、後端管線在整體運算單元中所占用的空間,在加上製程精進的紅利,達到縮減40%占用晶片面積的效果。

回顧應用Lunar Lake的NPU 4,能夠提供48 TOPS的AI運算效能。

Panther Lake整合之NPU 5則著重於提高面積效率,並對最新的工作負載進行最佳化。

簡單地說NPU 5前代之MAC矩陣放大2倍,在單一神經運算引擎中塞入更多運算單元。

原本NPU 4需要6組神經運算引擎才達到的MAC數量,NPU 5使用3組神經運算引擎就達到,有助於縮小整體面積。

NPU 5總共具有12,000組MAC,並共用4.5 MB之草稿記憶體(Scratchpad RAM),以及256 KB L2快取記憶體。

NPU 5的面積效率較NPU 4提高40%,也就是說在相同效能下能降低40%晶片面積。

NPU 5的MAC矩陣每時脈週期能進行2, 048次FP16資料類型運算,或是4,096次FP8、INT8資料類型運算。

FP8資料類型也支援較精準的BF8(E4M3,4指數Exponent,3尾數Mantissa),或是範圍較廣的HF8(E5M2)等格式。較FP16能夠節省記憶體傳輸量,並提高2倍吞吐量,最多節省2倍電力,且犧牲的精準度相當有限。

在Stable Diffusion圖像生成測試中,FP8資料類型能較FP16在同效能前提節省50%電力。

神經運算引擎內的資料轉換器支援FP32、FP16、BF16、FP8、INT8、INT4等格式轉換。

激勵函數(Activation Function)功能可以精準支援線性函數,並透過查找表支援更廣汎的非線性函數。

與NPU 4相比,NPU 5在住同資料類型與運算項目的表現最高提升2.5倍。FP8與FP16對比則是效能提升1.9倍。

全機AI運算效能高達180 TOPS 

Panther Lake整體具有下列3種運算單元能夠進行AI運算

  1. 中央處理器(CPU):最高10 TOPS AI運算效能。適合輕量且需要低延遲的AI工作負載。
  2. 繪圖處理器(GPU):最高120 TOPS AI運算效能。適合遊戲或創作生程式AI,但是耗電量比較高。
  3. 神經處理器(NPU):最高50 TOPS AI運算效能。具有較加的電力效率,適合需要長時間、背景運作的AI助理類型應用。

獨立軟體開發商(ISV)能夠針對AI應用程式的特性,並考慮使用情境、多工狀態與電力消耗等條件,在OneAPI應用程式介面的協助下,在開發程式階段決定將AI運算負載分配到1個或多個運算單元,充分壓榨效能並兼顧電力消耗。

筆者認為此舉是設計過程中,將NPU的運算效能控制在符合Microsoft Copilot+ PC系統需求,以提供理想的AI應用程式使用體驗,同時控制處理器的生產成本,是權衡性價比之後做取的取捨。若特定程式的負載更吃重,則可借助AI運算效能最高達到120 TOPS的Panther Lake 12 Xe GPU內建顯示晶片,加速完成工作的時間。

NPU 5具有50 TOPS之AI運算效能,符合Microsoft Copilot+ PC之系統需求。雖然效能較NPU 4雖然沒有顯著提升,但是原生支援FP8資料類型,且面積效率大幅提升40%。

Panther Lake的CPU、GPU、NPU等3種運算單元能夠提供最高總合180 TOPS的平台 AI運算效能。

Panther Lake也將支援最新的XeSS 2多重畫格生成,最多能開啟4X畫格生成設定以大幅提升遊戲的FPS效能,此外Xe 3顯示架構也有其他改善遊戲體驗的新功能,筆者將於另一篇文章詳細介紹,請讀者參考全文目錄繼續閱讀。

回到系列全文目錄

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
dawidwatsan
1.  dawidwatsan (發表於 2025年10月24日 13:41)
Cricfy APK is a popular Android application that allows users to stream live cricket matches, highlights, and scores for free. Designed for cricket fans, Cricfy offers real-time updates, multiple server options, and a user-friendly interface for smooth streaming on mobile devices. Cricfy TV APK


Velocity Executor is a powerful Roblox exploit tool used to run scripts and enhance gameplay with advanced features. Known for its high execution speed, stability, and compatibility with popular scripts, Velocity Executor is a go-to choice for Roblox players looking to customize their in-game experience. Velocity Executor
dawidwatsan
2.  dawidwatsan (發表於 2025年10月24日 13:46)
The keyword "Blox Fruit Script" is highly popular in the gaming and Roblox scripting community, often searched by players looking for scripts or cheats to gain advantages like auto farming, teleportation, or unlocking abilities in the Blox Fruits game. From an SEO-friendly perspective, this keyword has strong search volume due to the massive user base of Roblox and the popularity of Blox Fruits. Blox Fruit Script

"Shrimp Game Script" appears to be a niche or emerging search term, likely related to a Roblox or similar online game inspired by the popular Squid Game theme. From an SEO-friendly standpoint, this keyword may attract users looking for scripts or mods to gain advantages in a game called Shrimp Game. Shrimp Game Script
發表回應
謹慎發言,尊重彼此。按此展開留言規則