相關文章

4846709f9c0911624e804341b6fd8b60 在 Computex 前夕,Arm 照例都會有不小的動作,這次一口氣推出的處理器 Cortex-A76、繪圖處理器 Mali-G76,以及用作視訊編解碼處理的 Mali-V76。Cortex-A76 採用全新的微架構設計,減少 40% 電力消耗,最高效能還可比 Cortex-A75 多出 35%

劍指筆電市場的 Cortex-A76

進入正題之前,Arm 提出個相當有趣的觀點,過去數年以來,每年行動處理器的效能約有 20% 的年增長率,但是筆電處理器卻只有個位數的成長。近期 Arm 處理器架構已經成功吸納 Microsoft Windows 10,雖然並不完美,但擁有 20 小時的 Office 辦公室軟體的作業時間續航力不是問題。透過處理器架構的省電特性,加上 Cortex-A76 效能提升,該公司樂觀看待 2019 年推出第二代採用 Arm 處理器架構的 Windows 筆電,效能相比第一代 Qualcomm Snapdragon 835 處理器版本成長百分百。

筆電級效能結合手機省電性,Arm 採用 7nm 製程的 Cortex-A76、Mali-G76、Mali-V76 全面登場
▲Cortex-A76 不僅瞄準手機市場,也要持續推出 Windows 筆電。

Cortex-A76 相容 Armv8-A 和 Armv8.2-A 延伸指令集,同時也支援過去 A32 和 T32,The Register 網站則收到另外 1 項資訊,EL0 模式(一般程式運作無需特權的模式)往下相容 32 位元指令沒有問題,EL1(作業系統模式)或是 EL2(虛擬機模式)以上則僅支援 64 位元,不若前輩還可以在較高的特權模式支援 32 位元指令。The Register 推測此舉可以減少處理器硬體設計複雜度,但對於一些軟體開發者較為麻煩。

筆電級效能結合手機省電性,Arm 採用 7nm 製程的 Cortex-A76、Mali-G76、Mali-V76 全面登場
▲與 Cortex-A76 配合的 DynamIQ 小核心為 Cortes-A55。

Cortex-A76 同樣支援先前推出的 DynamIQ 多核心組合方式,但由於 Cortex-A76 為大核心設計,因此在同一 DynamIQ 叢集當中,最多只能放入 4 個核心。L1 快取固定規格為 64KB 4-way 指令快取以及 64KB 4-way 資料快取,每個時脈週期可以從 L2 快取擷取 32Byte 指令進入 L1 指令快取,L1 資料快取則於每時脈週期讀取和寫入 32Byte 資料至 L2。L2 快取容量可以選擇 256KB 或是 512KB,每個時脈週期同樣可以讀取和寫入 32Byte 資料至 L3。

筆電級效能結合手機省電性,Arm 採用 7nm 製程的 Cortex-A76、Mali-G76、Mali-V76 全面登場
▲Cortex-A76 微架構概觀。

DynamIQ 設計為 L3 快取由全部處理器核心共用(也可以完全不配置 L3 快取),容量從 512KB~4MB 任君選擇,但相對每個核心的吞吐量不變。處理器前端的分支預測和指令擷取在 Cortex-A76 為分離設計,分支預測每時脈週期擷取 32Byte,而指令擷取每時脈僅有 16Byte,額外的部分正好可以掩飾分支預測失敗的效能損失,有助於提升前端運作效率,最高每個時脈週期可以擷取 4~8 個指令(16bit 指令為 8 個)。

解碼部分則是 Arm 第一款 4-wide 設計,每個時脈週期則能夠派發 8 個解碼後的微指令至運算單元和位址產生單元;當然,運算單元支援亂序執行(OoOE、Out-of-Order Excution)。運算單元整數部分支援 4-issue,內部包含 3 個 ALU 和 1 個分支單元,浮點/原生 16Byte 向量部分則是 2-issue,Arm 強調輸出量為先前任意型號的 2 倍,能夠在低精度機器學習演算法提供相較前代 4 倍效能。

筆電級效能結合手機省電性,Arm 採用 7nm 製程的 Cortex-A76、Mali-G76、Mali-V76 全面登場
▲變更微架構、轉換製程,Cortex-A76 有著不小的效能增進幅度。

Cortex-A76 處理器旗艦型產品預計使用 TSMC 7nm 製程,今年下半年即可見到首批產品,2019 年開始大量出貨。Cortex-A76 在 7nm 製程、3GHz 運作時脈,相對 Cortex-A75 10nm 製程、2.8GHz 時脈,效能增長約 35%(使用 GeekBench v4.1、AArch64);若給予 2 者相同的電力,則 Cortex-A76 的效能表現為 Cortex-A75 的 1.4 倍。

筆電級效能結合手機省電性,Arm 採用 7nm 製程的 Cortex-A76、Mali-G76、Mali-V76 全面登場
▲Cortex-A76 整數運算效能相較 Core-A73 提升 0.9 倍,浮點運算則是 1.5 倍。

Mali-G76 微架構小調整

電競遊戲市場持續成長,手機遊戲占比也逐年增高,Arm 自然也不會放過此塊大餅推出 Mali-G76。相較於前一代 Mali-G72,每單位效能密度增長 30%,能源效率也提升 30%,機器學習效能則是 2.7 倍。Mali-G76 採用與 Mali-G72 相同的 Bifrost 微架構,但是內部的執行通道從 Mali-G72 每個引擎 4 條提升至 8 條,換算下來 Mali-G72 最高共有 384 條(32 核心、每核心包含 3 引擎),而 Mali-G76 則為 480 條(20 核心、每核心包含 3 引擎)。

之所以沒有簡單暴力的堆疊核心數量,是因為 Arm 發現相對於增加核心數量連帶的耗能增長,相較提升執行通道為多,使用的晶片面積也更大。另外為了跟上執行通道的數量,Mali-G76 內部材質單元增加為 2 個,Mali-G72 只有 1 個,每時脈週期吞吐量很簡單地變為 2 倍。

筆電級效能結合手機省電性,Arm 採用 7nm 製程的 Cortex-A76、Mali-G76、Mali-V76 全面登場
▲Mali-G76 在機器學習部分,可以提供 Mali-G72 的 2.7 倍效能。

筆電級效能結合手機省電性,Arm 採用 7nm 製程的 Cortex-A76、Mali-G76、Mali-V76 全面登場
▲內部結構小改,每個引擎的執行通道增為 8 條。

Mali-V76 聚焦東京奧運 8K 轉播

近期沒有值得注意的影片編解碼格式出現,Mali-V76 毫無意外地繼續加強編解碼效能,已經可以支援 8K/60p 影片解碼以及 8K/30p 編碼。由於該公司的 IP 設計成品不會立刻在市場出現,因此 Arm 在設計產品時必須考慮未來支援性,2 年過後正好舉行東京夏季奧運會,日本預計替該場奧運會提供 8K 賽事轉播,因此加入 8K/60p 解碼能力。

筆電級效能結合手機省電性,Arm 採用 7nm 製程的 Cortex-A76、Mali-G76、Mali-V76 全面登場
▲Mali-V76 已具備 8K/60p 影片解碼能力,也可以拆分成多個解析度較低的串流。

雖然目前 8K 應用並不成熟,Mali-V76 也可將此能力拆成 4 個 4K 影片解碼,或是 16 個 Full HD,方便驅動 VR 眼鏡或是大型電視牆等應用。若與自家前些日子推出的 Mali-D71 相互合作使用 Assertive Display 5 功能,Mali-V76 可以在傳送畫面的同時也傳送 Assertive Display 5 所需相關數據,Mali-D71 就不用再次運算,即可以 60FPS 或是 120FPS 的速度,依據使用者所在環境自動調整螢幕畫面至最佳狀態。

筆電級效能結合手機省電性,Arm 採用 7nm 製程的 Cortex-A76、Mali-G76、Mali-V76 全面登場
▲透過韌體更新,Mali-V76 影片編碼品質相較 Mali-V61 提升 25%。

筆電級效能結合手機省電性,Arm 採用 7nm 製程的 Cortex-A76、Mali-G76、Mali-V76 全面登場
▲自家產品通力合作,Assertive Display 5 所需部分數據可由 Mali-V76 直接提供,提供更快速的螢幕畫面調整速度。

 

加入電腦王LINE帳號

筆電級效能結合手機省電性,Arm 採用 7nm 製程的 Cortex-A76、Mali-G76、Mali-V76 全面登場

延伸閱讀

使用 Facebook 留言

發表回應

謹慎發言,尊重彼此。按此展開留言規則