2013.05.07 16:10

Tegra 4架構完全解析,舊架構新核心重裝上陣

ADVERTISEMENT

Tegra 4i採Cortex-A9

NVIDIA也發表了尺寸、功耗較低的Tegra 4i處理器,兩者架構相近,皆採用4+1核心設計,不過Tegra 4i仍採用Cortex-A9內核。回顧過去,Tegra 2採用Cortex-A9 r1p1版本,Tegra 3則是r2p9,Tegra 4i採用的是最新的r4p1版本。

Cortex-A9 r4p1最大的變革在於快取架構的提升,GHB、L2 TLB、BTAC皆擴大4倍,規格與Cortex-A15相同,能夠提高分支預測的準確度,進而提高效能。根據NVIDIA表示,Cortex-A9 r4p1相較於r2p9,可以提高15%效能,再加上Tegra 4i最高時脈可達2.3GHz,更可拉大與Tegra 3的差距。

ADVERTISEMENT

▲Tegra 4i的處理器部分採用Cortex-A9核心,但同樣為4+1架構設計,圖形處理器核心數量降為60個。下方粉紅色區域,即為整合至內部的i500軟體數據晶片。(圖片來源:)

GHB、LTB、BTAC

GHB(Global History Buffer,全域歷史緩衝)為採用先進先出(FIFO)資料架構的緩衝區,它會將快取失敗的資料暫存起來,當緩衝區空間用罄時,會先刪除較舊的資料,可用於「校正」快取運作模式,增加快取命中率。

LTB(Translation Lookaside Buffer,轉譯找查緩衝)會儲存虛擬記憶體位置(virtual address)與實體記憶體位置(physical address)的對應關係,避免每次存取記憶體時,都需要向記憶體中的分頁表查尋位置,進而省下記憶體本身與資料傳輸所產生的延遲。

BTAC(Branch-Target Address Cache,分支目標記憶體位置快取)則是會記錄虛擬記憶體位置中的資料所在,以免記憶體位置映射改變、快取資料重新排列後,系統無法直接存取該資料。當BTAC快取命中後,系統會直接將BTAC作為程式計數器(Program Counter),並視為存取資料的依據,可以將快取延遲降低為0個週期。

縮減繪圖,整合i500

Tegra 4i的圖形處理器架構與Tegra 4相近,只具有4組頂點處理引擎與2組像素管線,但是每組像素管線由6組ALU組成,而不是Tegra 4的3組,每組頂點處理引擎與ALU仍由4個GeForce核心組成,核心總數只有60個。此外它的記憶體控制器也降為單通道32bit,最高時脈僅為660MHz,理論效能只有Tegra 4的82.29%。

不同於Tegra 4將i500採外掛方式處理,Tegra 4i直接將i500整合進處理器內部。Tegra 4晶片尺寸為23 x 23mm(BGA封裝)或14 x 14mm(FCCSP封裝),而i500晶片尺寸為7 x 7mm,相加之後占用面積分別為578mm2或245mm2,然而Tegra 4i晶片尺寸僅為12 x 12mm,占用面積為144mm2,只有Tegra 4的24.91或58.78%,更適合用於手機等體積較小的裝置。

ADVERTISEMENT

▲Tegra 4i的圖形處理器與Tegra4架構相同,但它只有3組頂點處理引擎,及2組像素管線,每組像素管線中包含6組ALU。

ADVERTISEMENT

▲Tegra 4、4i圖形處理器比較表

效能成長驚人

NVIDIA於Tegra 4的處理器與圖形處理器白皮書附上效能數據,因此筆者選擇Htc New One與Nexus 7等2款產品進行測試與比較。Tegra 4的數據為NVIDIA官方,以搭載時脈為1.9GHz的Tegra 4之平板電腦測得(其他細節未公開),而則是搭載時脈為1.7GHz的Qualcomm Snapdragon 600處理器,採用Tegra 3家族中最低階的Tegra 3 T30L處理器,時脈僅為1.2GHz。

在Sunpider測試中,可以看到而New One表現約為Nexus 7的2倍,而Tegra 4約為Nexus 7的3倍,安兔兔測試也呈現相近的結果。GLBenchmark部分筆者需特別聲明,NVIDIA提供的數據為2.5版成績,但是該版本目前已無法使用,故對照組採用2.5.1版進行測試,Tegra 4可領先Nexus 7的6~8倍。

ADVERTISEMENT

Tegra 4的效能看起來不錯,不要忘了上市時,Tegra 4很可能會依耗電量將產品分為不同時脈的版本,故不是所有採Tegra 4的裝置都能有如此神勇的表現,而且Qualcomm Snapdragon 800處理器也將於今年第2季上市,屆時最強行動處理器(尤其搭載於手機之版本)鹿死誰手還很難預測。

▲SunSpider為JavaScript效能測試工具,使用內建瀏覽器的情況下,Terga 4完成所有項目所需的時間最短。

▲在負擔較吃重的1080p解析度測試下,Terga 4效能可以領先Nexus 7約6.06倍,表現相當出色。

▲安兔兔成績能夠反應裝置整體效能,雖然NVIDIA並沒有公布測試平台細節,但是還是能略知Terga 4效能的強大。

▲在負擔較輕的720p解析度測試部分,Terga 4領先Nexus 7的幅度可拉大到約7.97倍,差距只能用誇張來形容。

後續接班人已出現

雖然Tegra 4尚未上市,不過NVIDIA已經在3月下旬舉辦的GPU技術研討會(GPU Technology Conference)中,透露了接下來2款Tegra處理器的消息,並維持了以美國漫畫英雄做為開發代號的傳統。下個世代的Logan將引進CUDA 5.0與OpenGL 4.3,而且預計於2014年初發表。預計在2015年發表的Parker,將搭載64位元ARM架構Denver核心與Maxwell圖型處理器,並將採用台積電的FinFET電晶體(鰭式場效電晶體)技術,勢必能在控制功耗的同時,提供更強大的效能。

為了要讓開發人員有合適的CUDA測試環境,NVIDIA也發表了Kayla開發平台,它採用Tegra 3處理器與MXM介面的獨立顯示晶片,有趣的是其顯示晶片採Kepler架構,並具有2組SMX(共384個GeForce核心)。從使用Cortex-A9核心的Tegra 3處理器,雖可看出它並不是Logan的原型機,但顯示晶片或許暗示著Logan的某種可能性,令人不禁期待往後Tegra的發展。

▲例代Tegra名稱的由來

本文同步刊載於電腦王雜誌
 
 
歡迎加入電腦王雜誌粉絲團

ADVERTISEMENT