Intel x86 省電小核心處理器 Tremont 微架構資訊出爐--路徑更寬、單執行緒效能更佳

Intel x86 省電小核心處理器 Tremont 微架構資訊出爐--路徑更寬、單執行緒效能更佳

ADVERTISEMENT

如果大家沒有忘記的話,Intel x86 處理器微架構目前分成大核心、小核心 2 條路線,大核心也就是你我所熟知的 Core、Xeon,小核心則從 Atom 產品線開始發跡,目前延伸至部份 Celeron、Pentium。Intel 近日正式公布小核心新世代微架構 Tremont,採用 10nm 製程填入更多電晶體。

目前 AMD 與 Intel 2 家 x86 處理器大戰打得正火熱,玩家的目光都擺在下禮拜 Core i9-9900KS,以及 11 月即將推出 Ryzen 9 3950X 以及第三代 Ryzen Threadripper,但在 Coffee Lake、Zen 2 這類大核心微架構相互爭戰之際,也別忘了 Intel 還有個小核心微架構產品線,從一開始的 Atom 發跡,到現在部分 Celeron 與 Pentium 處理器,很多顆核心包在一起甚至能夠組成 Xeon。

Intel 近日正式公布新一代小核心微架構 Tremont 相關資訊,製程由前一代 Goldmont Plus 14nm 進化成 10nm,首波產品將是代號 Lakefield SoC 處理器,內含 1 個大核心 Sunny Cove 與 4 個小核心 Tremont。由於 Sunny Cove 微架構已於日前 Intel 架構日公布諸多細節,如今也輪到 Tremont 揭開面紗。

▲ Tremont 微架構鎖定在提升單執行緒效能。

綜觀 Tremont 微架構,能夠以「更寬」這類字眼形容,無論是前端解碼、後端執行單元、記憶體階層均有一定的橫向發展,Intel 甚至替 Tremont 分支預測部分標註「Core class」字眼,而整體開發方向則是鎖定提升單執行緒效能。另外考量到 Tremont 整合進入 5G 網路交換機等市場,因此也要提升單位面積效能,小核心 x86 微架構的初衷--每瓦效能進步幅度也在考量之內。

「Core class」分支預測部分,以更多 target array 以及更久的歷史資料提升預測正確性,精準度已接近大核心微架構。L1 指令快取容量維持 32KB、8-way 不變,cache line 為 64B,該快取單一時脈週期可傳輸 32Byte,並支援 8 個 outstanding miss。

▲ Intel 替 Tremont 微架構分支預測取了「Core class」,表示準確性已接近大核心微架構。

指令解碼區塊是個有趣的地方,按照更寬的設計邏輯,Tremont 單一時脈週期最高可同步解碼 6 條 x86 指令,但是內部設計方式卻以複製、貼上另外 1 個解碼器叢集的方式達成,從而避免較寬的解碼器運作能源效率不彰。此外,在要求更低功耗的場合,其中 1 組解碼器叢集也能夠關閉,回到前一世代 Goldmont Plus 的 3-way。

▲ Tremont 微架構前端採用 2 個 3-way 解碼叢集,單一時脈週期最高同步解碼 6 條 x86 指令,又無需微指令快取提升能源效率,在極為講究功耗的應用,也能夠方便關閉其中 1 個解碼叢集。

Tremont 微架構執行單元並非採用大核心整數、浮點數/向量合併的方式,而是延續前代 Goldmont Plus 相互分離的設計方式,但內部路徑埠數量更多更寬。整數部分合計有 7 個埠,每個埠前端都設有 1 個保留站(2 個 AGU 共用 1 個保留站),浮點數為 3 個埠,2 個 ALU 共用 1 個保留站。前端解碼成微指令之後,每時脈週期可以有 4 個微指令進入重排序緩衝區,每時脈周期也能夠引退 4 個微指令,而該重排序緩衝區共可容納 208 個條目。

▲ Tremont 微架構重排序緩衝區容量增加,執行單元也擁有更多埠加強平行處理能力。

浮點/向量處理單元為 2 個 ALU 加上 1 個 store data,其中 1 個 ALU 支援加法運算,另外 1 個支援乘法與除法運算,但 2 者均支援 128bit AES,負責乘法與除法的 ALU 也支援單指令 SHA256,更增加了 GFNI(Galois Field New Instruction)指令集支援性(非 AVX 系列、而是以 SSE 延伸指令集方式支援)。

▲ Tremont 微架構浮點/向量部分並不支援 AVX 系列指令集,但仍具備雙 128bit AES 單元和 SHA256,並以 SSE 延伸指令集方式支援 GNFI。

記憶體階層部分,2 個 AGU 單一週期支援 2 個載入、或是 2 個儲存、或是 1 個載入加上 1 個儲存,而單一週期能夠從 L1 資料快取(32KB、8-way)分別載入 16Byte 至整數與浮點。儲存至 L1 資料快取時,浮點部分仍保持 16Byte,整數部分則為 8Byte。L1 指令快取、L1 資料快取之間,共同分享 L2 TLB 1024 個條目。

▲ Tremont 微架構具備雙載入/儲存管線,資料載入延遲為 3 個時脈週期,L1 無論是指令或是資料快取,均共用 L2 TLB 1024 個條目。

Tremont 基本上以 4 個實體核心為 1 個設計單位,但實際應用時可依需求刪減,L2 快取容量則需單位內的 1~4 個實體核心共同分享,可配置容量為 1.5MB~4.5MB,關聯性也可以調整為 12-way~18-way。Intel 為 Tremont IP 化做好準備,能夠再往下支援末級快取 last level cache(inclusive 或是 non-inclusive)。

▲ Tremont L2 快取最高每 4 核心支援 4.5MB、18-way,並能夠 IP 化與其它 Intel 設計整合,因而支援末級快取 last level cache 或是 Resource Director Technology。

安全性方面取得 2 大功能改善,一為可信賴執行技術 TXT(Trusted Execution Technology)和 Boot Guard,一為全記憶體加密 Total Memory Encryption。另外 Tremont 預計整合進入 5G 邊緣網路產品之內,因而新增加速器介面指令支援性。多年前於大核心 Skylake 微架構導入的 Speed Shift 技術,藉由硬體直接分析目前工作狀態調整 P-state,如今也導入 Tremont,比作業系統控制反應更快。

▲ 因應 Intel 的 Tremont 市場規劃,加入多種指令與技術支援。

▲ Tremont 對比前一代 Goldmont Plus,相同頻率的效能增長平均可達 30%,也就是 Tremont IPC 效能為 Goldmont Plus 的 1.3 倍。

目前已知代號 Lakefield SoC 處理器將同時吸納 Sunny Cove 和 Tremont 微架構,Tremont 也將投身 5G 網路系統單晶片,Intel 也預告 Tremont 將會有更多種不同的應用,但目前保持神祕態勢無法公開。

▲ Lakefield SoC 處理器所包含的 2 種微架構,Sunny Cove 在相對效能 70% 以上具有優勢,Tremont 則在相對效能 60% 以下更為省電。

 

延伸閱讀

R.F.
作者

誤入叢林的小白兔,每天爬樓梯到七樓的白癡,幻想自己很瘦的豬,一放假就睡死的bed potato。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則