A0b3753a5d8bfbea34a493b4683bb408 長久以來,筆電市場都屬於Intel的勢力範圍,AMD無論在產品本身效能表現、平台整合,甚至是品牌行銷上,都無法與之競爭。然而屢敗屢戰的AMD,在Windows 8上市大約半年過後,不但推出新款高階APU對抗Haswell架構處理器的內顯革命,也企圖以低階APU切入Windows平板戰局,直接搶食由Intel所占據的市場。

快速瀏覽:

APU搶占中階以下市場

過去的行動版APU大致可分為最低階的E系列,以及雙核心的A4、A6,和四核心的A8、A10等產品線,其對應產品規劃分別為輕省筆電、低階筆電,以及中階筆電。AMD今年同樣按照先前的分級概念,推出的Temash、Kabini、Richland等APU,做為世代交替的新產品。

在AMD官方提供的宣傳文件中,AMD將Temash列為精英行動平台(Elite Mobility APU Platform),專攻平板電腦與變形平板,而Kabini與Richland分別屬於主流平台與精英效能平台(Mainstream APU Platform、Elite Performance APU Platform),分別對應低階與中階筆電。

筆者無意對AMD的產品分級與規劃多加評論,如此規劃是否名正言順,就待後半部文章效能實測部分,再行檢驗,此外讀者也可以就雙方處理器規格,進行比較與分析。

▲AMD為自家處理器設定的假想敵如圖所示。雖然Kabini A4、A6系列皆為四核心處理器,但其假想敵都只有2個核心與2個執行緒。

Jaguar大改款,遊戲機也青睞

在前面章節之中,已經介紹過Richland為Trinity時脈提升的小改款,這邊就將重點放行動平台的新架構:Jaguar。雖然Jaguar是以Bobcat為基礎修改而來,彼此架構雖然有些類似,但根據AMD官方資料,Jaguar的IPC(Instructions executed Per Clock,每時脈處理指令數)比Bobcat高出22%,其設計甚至獲得Sony與Microsoft一致認同,成為次世代遊戲主機使用之處理器。

PlayStation 4與Xbox One皆採用Jaguar架構處理器

在次世代遊戲主機的硬體爭奪戰中,AMD已經先搶下Wii U的顯示晶片,在接下來發表的PlayStation 4Xbox One等2款主機,則都宣布使用基於Jaguar架構的客制化處理器。然而由於Wii U的處理器採用IBM PowerPC架構處理器,所以說在這場競爭中,AMD超越Intel並大獲全勝也不為過。

PlayStation 4與Xbox One的APU皆具有8個處理器核心,並具有2組2MB L2快取記憶體。前者具有1152個Radeon Core(數量介於Radeon 7850、Radeon 7870之間),後者則有768個(數量介於Radeon 7770、Radeon 7790之間)。

 

▲PlayStation 4、Xbox One規格對照

使用28nm製程

Jaguar將製程從上代的Bobcat使用的40nm推進為28nm,製程精進除了代表可以縮小處理器尺寸,或是在相同面積內塞入更多電晶外,另一方面也代表著可以提升電力效率。對於使用室內電源的桌上型電腦來說,電力效率對於使用者最重要的意義並不真正在於單位電力可以帶來多少效能,反而是產生相同效能將會帶來多少廢熱。至於筆電、平板電腦等以電池驅動的裝置,電力消耗就成了大問題,更能彰顯電力效率提升的好處。

在電力效率提高的前提下,廠商可以對產品進行2種不同方向的校調,第一種是在相同TDP的情況下,提高效能表現,第二種則是降低TDP,讓處理器更省電、產生更少廢熱。就AMD的產品規劃來看,筆電使用的Kabini屬於前者,而平板、輕省筆電使用的Temash則屬於後者。附帶一提,目前Intel主流的Clover Trail核心Atom處理器仍停留在32nm,要等到新的Silvermont核心才會將製程提升為22nm,AMD可以在這段空檔期間好好享受許久不見的製程領先。

▲Jaguar架構APU不但繼承Trinity的整合式北橋(Unified Northbridge),也將等同於南橋的融合控制中樞(Fusion Control Hub)納入處理器內,讓Jaguar成為AMD的第一顆x86 SoC。

強化亂序執行效率

大體上來說,Jaguar的架構與Bobcat十分雷同,兩者的處理器核心階具有2組解碼單元以及ALU,L1快取記憶體的容量也相同,不過Jaguar藉由擴展排程器(Scheduler)與重新排序緩衝區(Re-order Buffer,ROB)等資源,提高亂序執行的效率,進而提升整體效能。

此外Jaguar還加入了4組32Byte的迴圈緩衝區(LoopBuffer),當處理器偵測到程式中的迴圈時,可以直接從迴圈緩衝區重新抓取指令,甚至不需經過L1快取記憶體。這個設計最大的好處在於執行迴圈時,能夠降低L1快取記憶體的工作量,進而節省電力消耗,而不是增進效能。

▲共享式L2快取記憶體不但能提高單執行緒模式下,程式可用的快取記憶體容量,在多執行緒模式時,也能增進核心間的資料交換效率,應用彈性更加廣泛,對於效能有著絕對正面的影響。

新增多組指令集

Jaguar將SSE4.1/4.2、AES、CLMUL、MOVBE、AVX、F16C、BMI1等指令集納入支援。其中比較特別的是,Bobcat的浮點運算器寬度僅有64bit,Jaguar則提升為128bit,可以同時處理4個單精度加法與4個單精度乘法運算,或是2個雙精度加法與1個雙精度乘法運算,並可藉由將指令拆成2個128指令的方式,支援256bit AVX指令集。

Jaguar的L2快取記憶體終於採用共享式設計,將L2快取記憶體從獨立內建於每個核心,拉到外部讓所有核心共享,可以盡可能將快取記憶體分配給需求較大的程式,並提高各核心間交換資料的效率。此外,AMD更是首次將快取記憶體架構從以往的獨立式(Exclusive)更換為包含式(Inclusive),兩者的差異在於,包含式架構會將所有L1快取記憶體中的資料,存放副本於L2快取記憶體中,而獨立式架構則不會。雖然包含式架構會浪費些許空間,但是有利核心間資料共享。

延伸閱讀:

Piledriver最後一擊,第三代APU力抗Haswell

Haswell微進化,新AVX2指令集加持,整點與浮點運算再提升

Haswell 強內顯 GT2 實測:EU數量再增加,3D性能2.6倍

AMD Piledriver 打樁機架構解析,二代 APU 挑戰 Core i3 跑實測

FM2 主機板大火拼:打造平價、最強內顯遊戲機,完全解析與實測

AMD Trinity 內顯不死徹底解析:北島架構、南島影像引擎,加上 Piledriver 的 A10 處理器

(後面還有更多內容!)

使用 Facebook 留言

Charlie Chou
1.  Charlie Chou (發表於 2013年8月13日 09:54)
這PPT和訪問很好很強大
問題是也要看的到產品才有用...

到現在還是看不到Win 8 + AMD CPU的平板啊...
(然後Z2760雖然有點老了 但依然滿天飛 連Android都看的到Atom的身影...)

而且在Wikipedia上面看最省電的Temash A4-1200 TDP都有3.9W
之後Intel Bay-Trail-T真四核Out-of-order TDP小於3W
請問你是要怎麼打...

AMD你還是專心去賣顯示卡好了╮(╯_╰)╭
THINK
2.  THINK (發表於 2013年8月13日 10:09)
※ 引述《Charlie Chou》的留言:
> 這PPT和訪問很好很強大
> 問題是也要看的到產品才有用...
>
> 到現在還是看不到Win 8 + AMD CPU的平板啊...
> (然後Z2760雖然有點老了 但依然滿天飛 連Android都看的到Atom的身影...)
>
> 而且在Wikipedia上面看最省電的Temash A4-1200 TDP都有3.9W
> 之後Intel Bay-Trail-T真四核Out-of-order TDP小於3W
> 請問你是要怎麼打...
>
> AMD你還是專心去賣顯示卡好了╮(╯_╰)╭

Intel Bay-Trail-T 他所公布的並不是TDP而是SDP(場景功耗)
而TDP通常都會大於SDP~
所以這兩者並不能直接拿來比@@~
Charlie Chou
3.  Charlie Chou (發表於 2013年8月13日 10:27)
※ 引述《THINK》的留言:
> Intel Bay-Trail-T 他所公布的並不是TDP而是SDP(場景功耗)
> 而TDP通常都會大於SDP~
> 所以這兩者並不能直接拿來比@@~

我知道啊
不過我剛剛查到的資料
Bay-Trail-T的SDP大概2~2.4W
然後官方投影片寫TDP會小於3W...

反正 出來就知道了
平板這玩意的顯示晶片對我來說主要的工作
就是硬解H.264
其他效能之類就隨便
CPU強感覺比較重要...

發表回應

謹慎發言,尊重彼此。按此展開留言規則