完全看懂 HD 7970 新架構，GPU 如何跑出更高的效能？

GCN：率先使用新規格

看到AMD的新架構，很難不去跟NVIDIA先前發表的Fermi比較，不過架構只是追求效能與節省成本的手段。論斷好壞並不客觀，但是在設計上倒是可以比較一下兩者的異同。

強化的快取架構

比較值得一提的是兩者的快取架構，Fermi每個SM（Streaming Multiprocessors）有64KB的L1快取，而所有SM則是共享768KB的L2快取。GCN設計上則較為複雜，CU有獨立64KB的L1快取，每4個CU還可共享16KB的指令快取（instruction cache）以及32KB的純量資料快取（scalar data cache）。L2則是每個記憶體控制器（memory controller）可支援64或128KB，HD 7970內具備6個記憶體控制器，因此L2快取與Fermi同為768KB。

▲新架構的快取共享機制很複雜，每個CU有獨立也有共享的快取。重視數據共享是GCN的特點之一，加上X86虛擬記憶體技術，讓複雜程度再上一層。

X86虛擬記憶體

GCN架構的L1快取都是與L2共通的，且能跟顯卡上的GDDR5記憶體同步數據。GCN比Fermi更為注重資料同步，L1與L2、L2與顯卡記憶體、L2與系統記憶體都能同步數據。另外還有首次出現的X86 Virtual Memory（X86虛擬記憶體），可讓顯卡上的記憶體虛擬為系統記憶體。即使是X79用的四通道記憶體頻寬（memory bandwidth）不過30～50GB/s左右，HD 7970上的GDDR5記憶體頻寬可高達264GB/s，是系統記憶體的數倍，有助於通用運算與少部分遊戲。

DX 11.1能看不能玩

除了X86虛擬記憶體外，這次HD 7970也支援了不少新規格，舉凡PCI-E 3.0、DirectX 11.1，而且又是第一款28nm製程的顯卡。PCI-E 3.0部分，下個章節會搭配效能實測介紹，在此我們先來了解能看不能玩的DirectX 11.1。
會說能看不能玩，主要還是因為目前微軟並不支援DirectX 11.1，大多猜測會到了Windows 8之後才會搭配新版API。從MSDN（Microsoft Developer Network）提供的資料來看，這次DirectX 11.1跟以往小改版相同，目的不在於增加新技術，大多是除錯與擴展功能。

DirectX 11.1新功能

Shader tracing
Direct3D device sharing
Check support of new Direct3D 11.1 features and formats
Create larger constant buffers than a shader can access
Use logical operations in a render target
Force the sample count to create a rasterizer state
Process video resources with shaders
Change subresources with new copy options
Discard resources and resource views
Support a larger number of UAVs
Bind a subrange of a constant buffer to a shader
Retrieve the subrange of a constant buffer that is bound to a shader
Clear all or part of a resource view
Map SRVs of dynamic buffers with NO_OVERWRITE
Use UAVs at every pipeline stage

資料來源：MSDN

迎接光線追蹤

目前DirectX 11.1有15項新功能，其中比較值得注意的是子項目DoublePrecisionFloatShaderOps，也就是較常聽到的DP Shader。DP指的是Double Precision，也就是雙精度運算。是微軟在DirectX中首度加入的Shader類型，可在運算當中加入雙精度規則。

先前有提過，雙精度比起單精度運算精確度更高，先前所有Shader運算都是採用FP32也就是單精度運算，應用面來說單精度運算已經足以使用，轉換成雙精度提升的精確度是多餘的。那為什麼要支援雙精度？能想到最直接的例子就是ray tracing（光線追蹤）。

在模擬ray tracing的過程中，必須依靠雙精度運算維持數據的精確性。Ray tracing特色在於物體與光線之間的高度模擬，依照現有的處理精確度，讓物體與光線交互作用數次就會產生不可忽略的誤差，對於交互次數多達數十次的ray tracing只用單精度是絕對不夠的，可能會造成模擬失真，於是只能靠雙精度技術加強。

關鍵字：Ray Tracing（光線追蹤）

▲光線追蹤是幾何光學的技術，主要是計算光線碰到物體時的折射與反射，由於物體與物體、物體與光線、光線與光線之間都會互相影響，因此運算的數據量十分龐大。高階顯卡跑起來可能都不太夠力，且未來加入雙精度運算，雖精確度提升但是效能可能還要打折扣。圖中的車輛即是用光線追蹤模擬出來，板金上的光影十分逼真。

延伸閱讀：

傳 AMD 將於12月5日發表新 GPU：Radeon HD 7000

AMD HD 7970 之 GCN 架構完全解析，帶來 GPU 革命

新卡王 Radeon HD 7970 實測：效能強大，驅動有待完善

#零組件 #電腦王 #顯示卡 #NVIDIA #ati #AMD #gpu #directx 11 #fermi #radeon #pci-e 3.0 #radeon hd #hd 7970

使用 Facebook 留言

1. PCABC （發表於 2012年4月01日 15:18）

引用回覆

看了這篇之後我更想了解開普勒的架構了

真不知道是怎樣弄得竟然功耗降著麼多

680還可以把7970壓在地上打

3人給推

2. Shinwill （發表於 2012年4月01日 15:20）

引用回覆

真希望 M01 那些整天 N/A 大戰的人來看看這篇文章
<(￣︶￣)>

3. Charlie Chou （發表於 2012年4月01日 17:36）

引用回覆

"...即使是X79用的四通道記憶體頻寬（memory bandwidth）不過30～50GB/s左右，HD 7970上的GDDR5記憶體頻寬可高達264GB/s，是系統記憶體的數倍，有助於通用運算與少部分遊戲。"

問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
然後加上延遲應該會比系統記憶體更高...
這樣真的會有用嗎?

4. PCABC （發表於 2012年4月01日 20:04）

引用回覆

※ 引述《Charlie20083》的留言：
> "...即使是X79用的四通道記憶體頻寬（memory bandwidth）不過30～50GB/s左右，HD 7970上的GDDR5記憶體頻寬可高達264GB/s，是系統記憶體的數倍，有助於通用運算與少部分遊戲。"
>
> 問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
> 然後加上延遲應該會比系統記憶體更高...
> 這樣真的會有用嗎?
>

記憶體是雙向的阿

對主板那邊當然是夠但對GPU那裡當然是要更快才行啦

CPU的快取也是相同道理一樣快的話何須另加記憶體

資料全部暫存在主機板的記憶體就好啦還比較便宜咧

╮(╯_╰)╭

1人給推

5. Shinwill （發表於 2012年4月01日 20:47）

引用回覆

※ 引述《Charlie20083》的留言：
> 問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
> 然後加上延遲應該會比系統記憶體更高...
> 這樣真的會有用嗎?

一般顯示卡所稱的記憶體頻寬
是指 GPU 與 VRAM 間溝通的頻寬

6. 00351 （發表於 2012年4月01日 21:10）

引用回覆

難怪AMD一直都有驅動程式的包袱
每出一批新遊戲
都必須一一改版來修正遊戲特效BUG
或效能低落的問題

1人給推

7. 魯蛇實驗室（發表於 2012年4月02日 10:11）

引用回覆

※ 引述《PCABC》的留言：
> 看了這篇之後我更想了解開普勒的架構了
>
> 真不知道是怎樣弄得竟然功耗降著麼多
>
> 680還可以把7970壓在地上打
>
>
28nm是主因，再者，kepler持續改良兩代的fermi架構
架構上更完善，電力效率自然表現更好

8. PCABC （發表於 2012年4月02日 14:18）

引用回覆

※ 引述《tandee》的留言：
> ※ 引述《PCABC》的留言：
> > 看了這篇之後我更想了解開普勒的架構了
> >
> > 真不知道是怎樣弄得竟然功耗降著麼多
> >
> > 680還可以把7970壓在地上打
> >
> >
> 28nm是主因，再者，kepler持續改良兩代的fermi架構
> 架構上更完善，電力效率自然表現更好

這期雜誌講的還蠻詳細的

Shader的部分更證實了我的疑慮拿掉後核心頻率終於上的來了

若真有GK110 GTX685我想應該就像是460跟465的差距一樣吧

通用運算效能大增但遊戲效能沒增多少

GPU面積大增結果超吃電 ╮(╯_╰)╭

9. 散彈槍（發表於 2012年4月02日 20:19）

引用回覆

※ 引述《PCABC》的留言：
> ※ 引述《tandee》的留言：
> > ※ 引述《PCABC》的留言：
> > > 看了這篇之後我更想了解開普勒的架構了
> > >
> > > 真不知道是怎樣弄得竟然功耗降著麼多
> > >
> > > 680還可以把7970壓在地上打
> > >
> > >
> > 28nm是主因，再者，kepler持續改良兩代的fermi架構
> > 架構上更完善，電力效率自然表現更好
>
>
>
> 這期雜誌講的還蠻詳細的
>
> Shader的部分更證實了我的疑慮拿掉後核心頻率終於上的來了
>
> 若真有GK110 GTX685我想應該就像是460跟465的差距一樣吧
>
> 通用運算效能大增但遊戲效能沒增多少
>
> GPU面積大增結果超吃電 ╮(╯_╰)╭
>
> 很難講喔，以規格來說，基本上可以把兩家目前的雙核卡王打趴，而且可能跟580差不多耗電而已，跟460和465是完全不一樣的狀況阿，畢竟GK110比GK104較像是GTX580比上GTX460才對(所以我覺得GK110相當有可能是7系列的)，不過因為良率問題，所以要等到8月才會出來。
>

10. 方（發表於 2012年4月04日 11:07）

引用回覆

其實打趴這句話言過其實了╯-__-)╯ ╩╩
兩者拉距肯定在玩遊戲時看不太出來
為求爽度而已

7970輸在兩點
1. 價格還不降?
2. 不CP求爽度時~我若有錢想買只買老大 ~說白點680也不夠看

謹慎發言，尊重彼此。按此展開留言規則