Tegra 4架構完全解析，舊架構新核心重裝上陣

Tegra 4i採Cortex-A9

NVIDIA也發表了尺寸、功耗較低的Tegra 4i處理器，兩者架構相近，皆採用4+1核心設計，不過Tegra 4i仍採用Cortex-A9內核。回顧過去，Tegra 2採用Cortex-A9 r1p1版本，Tegra 3則是r2p9，Tegra 4i採用的是最新的r4p1版本。

Cortex-A9 r4p1最大的變革在於快取架構的提升，GHB、L2 TLB、BTAC皆擴大4倍，規格與Cortex-A15相同，能夠提高分支預測的準確度，進而提高效能。根據NVIDIA表示，Cortex-A9 r4p1相較於r2p9，可以提高15%效能，再加上Tegra 4i最高時脈可達2.3GHz，更可拉大與Tegra 3的差距。

▲Tegra 4i的處理器部分採用Cortex-A9核心，但同樣為4+1架構設計，圖形處理器核心數量降為60個。下方粉紅色區域，即為整合至內部的i500軟體數據晶片。（圖片來源：）

GHB、LTB、BTAC

GHB（Global History Buffer，全域歷史緩衝）為採用先進先出（FIFO）資料架構的緩衝區，它會將快取失敗的資料暫存起來，當緩衝區空間用罄時，會先刪除較舊的資料，可用於「校正」快取運作模式，增加快取命中率。

LTB（Translation Lookaside Buffer，轉譯找查緩衝）會儲存虛擬記憶體位置（virtual address）與實體記憶體位置（physical address）的對應關係，避免每次存取記憶體時，都需要向記憶體中的分頁表查尋位置，進而省下記憶體本身與資料傳輸所產生的延遲。

BTAC（Branch-Target Address Cache，分支目標記憶體位置快取）則是會記錄虛擬記憶體位置中的資料所在，以免記憶體位置映射改變、快取資料重新排列後，系統無法直接存取該資料。當BTAC快取命中後，系統會直接將BTAC作為程式計數器（Program Counter），並視為存取資料的依據，可以將快取延遲降低為0個週期。

縮減繪圖，整合i500

Tegra 4i的圖形處理器架構與Tegra 4相近，只具有4組頂點處理引擎與2組像素管線，但是每組像素管線由6組ALU組成，而不是Tegra 4的3組，每組頂點處理引擎與ALU仍由4個GeForce核心組成，核心總數只有60個。此外它的記憶體控制器也降為單通道32bit，最高時脈僅為660MHz，理論效能只有Tegra 4的82.29%。

不同於Tegra 4將i500採外掛方式處理，Tegra 4i直接將i500整合進處理器內部。Tegra 4晶片尺寸為23 x 23mm（BGA封裝）或14 x 14mm（FCCSP封裝），而i500晶片尺寸為7 x 7mm，相加之後占用面積分別為578mm2或245mm2，然而Tegra 4i晶片尺寸僅為12 x 12mm，占用面積為144mm2，只有Tegra 4的24.91或58.78%，更適合用於手機等體積較小的裝置。

▲Tegra 4i的圖形處理器與Tegra4架構相同，但它只有3組頂點處理引擎，及2組像素管線，每組像素管線中包含6組ALU。

▲Tegra 4、4i圖形處理器比較表

效能成長驚人

NVIDIA於Tegra 4的處理器與圖形處理器白皮書附上效能數據，因此筆者選擇Htc New One與Nexus 7等2款產品進行測試與比較。Tegra 4的數據為NVIDIA官方，以搭載時脈為1.9GHz的Tegra 4之平板電腦測得（其他細節未公開），而則是搭載時脈為1.7GHz的Qualcomm Snapdragon 600處理器，採用Tegra 3家族中最低階的Tegra 3 T30L處理器，時脈僅為1.2GHz。

在Sunpider測試中，可以看到而New One表現約為Nexus 7的2倍，而Tegra 4約為Nexus 7的3倍，安兔兔測試也呈現相近的結果。GLBenchmark部分筆者需特別聲明，NVIDIA提供的數據為2.5版成績，但是該版本目前已無法使用，故對照組採用2.5.1版進行測試，Tegra 4可領先Nexus 7的6～8倍。

Tegra 4的效能看起來不錯，不要忘了上市時，Tegra 4很可能會依耗電量將產品分為不同時脈的版本，故不是所有採Tegra 4的裝置都能有如此神勇的表現，而且Qualcomm Snapdragon 800處理器也將於今年第2季上市，屆時最強行動處理器（尤其搭載於手機之版本）鹿死誰手還很難預測。

▲SunSpider為JavaScript效能測試工具，使用內建瀏覽器的情況下，Terga 4完成所有項目所需的時間最短。

▲在負擔較吃重的1080p解析度測試下，Terga 4效能可以領先Nexus 7約6.06倍，表現相當出色。

▲安兔兔成績能夠反應裝置整體效能，雖然NVIDIA並沒有公布測試平台細節，但是還是能略知Terga 4效能的強大。

▲在負擔較輕的720p解析度測試部分，Terga 4領先Nexus 7的幅度可拉大到約7.97倍，差距只能用誇張來形容。

後續接班人已出現

雖然Tegra 4尚未上市，不過NVIDIA已經在3月下旬舉辦的GPU技術研討會（GPU Technology Conference）中，透露了接下來2款Tegra處理器的消息，並維持了以美國漫畫英雄做為開發代號的傳統。下個世代的Logan將引進CUDA 5.0與OpenGL 4.3，而且預計於2014年初發表。預計在2015年發表的Parker，將搭載64位元ARM架構Denver核心與Maxwell圖型處理器，並將採用台積電的FinFET電晶體（鰭式場效電晶體）技術，勢必能在控制功耗的同時，提供更強大的效能。

為了要讓開發人員有合適的CUDA測試環境，NVIDIA也發表了Kayla開發平台，它採用Tegra 3處理器與MXM介面的獨立顯示晶片，有趣的是其顯示晶片採Kepler架構，並具有2組SMX（共384個GeForce核心）。從使用Cortex-A9核心的Tegra 3處理器，雖可看出它並不是Logan的原型機，但顯示晶片或許暗示著Logan的某種可能性，令人不禁期待往後Tegra的發展。

▲例代Tegra名稱的由來

本文同步刊載於電腦王雜誌

歡迎加入電腦王雜誌粉絲團