相關文章

9b092671e7bf92b3919dc03d02ba7e0e 事前沒有任何的警訊,Intel 就在自家網站悄悄地公布下一世代 10nm 代號 Ice Lake 處理器,預計整合的內建顯示繪圖架構 Gen11 白皮書。白皮書當中不僅有 Gen11 的詳細資訊,GT2 版本預計提供 1TFLPOS 運算能力,另外也可以稍微窺探 Ice Lake 處理器的變與不變。

長久以來,Intel 內建顯示繪圖一直都被玩家視為雞肋般的存在,直到近幾年加入相當優秀的視訊硬體加速編、解碼功能,才讓人感受到它的存在。在去年所舉辦的 Architecture Day 當中,Intel 宣示下一世代的內建顯示繪圖的效能將有爆炸性的提升,能夠遊玩一些休閒遊戲,最常採用的 GT2 配置將有 1TFLOPS 運算效能。

GDC 舉行期間,Intel 悄悄地於自家網站公布 Intel Processor Graphics Gen11 Architecture 白皮書,內容長達 33 頁,頗為詳盡地完整介紹 Gen11。該份白皮書主要針對 GT2 配置撰寫,在 Gen11 GT2 配置當中,EU 數量將從 Gen9 GT2 的 24 個大幅提升至 64 個,若是不計較 Gen11 其它架構變化,運算效能至少是現今 Gen9 GT2 的 2.66 倍。

Intel 採用 Gen11 世代繪圖架構的處理器 SoC 示意圖
▲Intel 採用 Gen11 世代繪圖架構的處理器 SoC 示意圖。

由於 Gen11 與處理器 SoC 其它部分一同建構在矽晶圓上,因此也會揭露些許下一世代 10nm 製程代號 Ice Lake 處理器的資訊。即便陸續有實體核心數量將提升至十個的消息傳出,Ice Lake 內部多個區塊的資訊交換依舊採用 ring 匯流排,包含連接處理器核心、LLC、System Agent,以及本文重點 Gen11 繪圖顯示區塊。LLC 容量依舊可讓處理器與繪圖核心共享使用,但白皮書內並未指出 Ice Lake 的 LLC 配置大小,尚待決定。

Gen11 GT2 配置有 1 個 Slice,每個 Slice 內部 Sub-Slice 從 Gen9 的 3 個大幅提升至 8 個,但 Sub-Slice 內部 EU 數量保持 8 個不變,單個 Slice 還有一些固定功能單元以及大家一起共用的區塊,如 Media Fix Function 區塊用以視訊編解碼、Slice Common 則包含光柵單元、Z 軸剃除、像素配發與後端引擎等。

Media Fix Function 媒體固定功能區塊與 Gen9 或是 Gen9.5 差不多,包含 Multi-Format Codec(MFX)、Visual Quality Enhancement(VQE)、Scaler and Format Conversion(SFC)等單元,但 MFX 單元從 Gen9 的 1 個變成 2 個,除了能夠同時處理編碼、解碼之外,同一視訊串流工作也可以分給 2 個 MFX 同步進行,如此即可降低該單元的運作時脈加強省電性。

MFX 的 VP9 解碼功能因應 HDR 所需,位元深度進階至 10bit,且 HEVC 和 VP9 的色度抽樣支援 4:2:2 和 4:4:4,編碼部分則加入 VP9 支援性與提升 HECV 編碼壓縮時的畫質表現,VQE 單元同樣將硬體去噪點的處理位元深度提升至 10bit。位於 System Agent 的視訊控制器,Gen11 支援 Panel Self Refresh 面板自我更新省電功能,USB Type-C 子系統則能夠透過 Type-C 輸出視訊畫面,並支援 DisplayPort Adaptive Sync。

Gen11 Slice 架構
▲Gen11 Slice 架構。

Gen11 功能區塊圖,L3 資料快取從 Gen9 的 768KB 大幅提升至 3MB
▲Gen11 功能區塊圖,L3 資料快取從 Gen9 的 768KB 大幅提升至 3MB。

Gen11 Slice 還有個架構上的改進,Shared Local Memory 從 Slice L3 移出,移入 Sub-Slice 內部,每個 Sub-Slice 共享 64KB。此舉可提升存取 Shared Local Memory 的效率,因為不用再透過 Data port 從 L3 取出。

以 SoC 視野繪製的記憶體階層與理論峰值頻寬,Gen11 向 LLC 每個 ring 時脈均可讀寫 64Byte
▲以 SoC 視野繪製的記憶體階層與理論峰值頻寬,Gen11 向 LLC 每個 ring 時脈均可讀寫 64Byte,

深入 EU 結構,每個 EU 內部包含 2 個 SIMD 處理運算類型的 Arithmetic Logic Unit(ALU),每個 ALU 可並行處理 4 個 32bit 浮點或是整數運算,16bit 則提升至 8 個。EU 每個時脈週期可處理 16 個 FP32 浮點運算(2 ALU x SIMD-4 x 2 Op (Add + Mul)),FP16 運算則是再加倍。

Gen11 單一 EU 結構
▲Gen11 單一 EU 結構。

繪製技巧部份,Gen11 導入 Coarse Pixel Shading(CPS),原理與現在受到矚目的 Variable Rate Shading 相當類似,可透過降低 shading rate 減少運算量,實作上卻更進步一些。CPS 可將整體畫面依據需求分割成 1x1~4x4 區塊進行繪製,但除了色彩著色頻率比較低之外,物件依舊可以保持清晰邊緣。

Coarse Pixel Shading 的示範比較畫面,CPS 可在表持物件邊緣銳利度的情況下,降低色彩著色頻率,畫質比起直接降低繪製解析度再升頻來得好
▲Coarse Pixel Shading 的示範比較畫面,CPS 可在保持物件邊緣銳利度的情況下,降低色彩著色頻率,畫質比起直接降低繪製解析度再升頻來得好。

Gen11 另外還支援 Position only Tile-Based Rendering(PTBR),眾所周知 tile-based 渲染方式只需要處理小範圍畫面,因此運算所需資料減少至可以放入更接近運算處理管線的快取區當中,減少對於記憶體頻寬的需求,這對於分享電腦記憶體作為繪圖專用記憶體的內建顯示繪圖而言,能夠減少因頻寬不足帶來的效能損失。

導入 Position only Tile-Based Rendering 的流程圖
▲導入 Position only Tile-Based Rendering 的流程圖。

透過升級至 Gen11 GT2,Intel Ice Lake 處理器內建顯示繪圖效能預計可以和 AMD Ryzen 3 2200G 的 Radeon Vega 8 相提並論,對於 AMD 今年下半年具有一定程度的壓力,特別是新一代 Ryzen APU 預計不會這麼快跟隨桌上型 Ryzen 3000 系列處理器問世。當然除了 Gen11 內建顯示改朝換代之外,玩家也會期待獨立顯示卡 Xe 的到來。

Gen9 GT2 與 Gen11 GT2 規格對照表
▲Gen9 GT2 與 Gen11 GT2 規格對照表。

 

資料來源

Intel Processor Graphics Gen11 Architecture

延伸閱讀

使用 Facebook 留言

發表回應

謹慎發言,尊重彼此。按此展開留言規則