完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?

ADVERTISEMENT

圖解編譯器指令集排程

編譯器Wavefront時程序列

假設有A~O共15條Wavefront,順序是由A到O,且部分Wavefront存在相依性。其中C必須依賴B,也就是Wavefront C必須等到Wavefront B運算完畢之後,才能算Wavefront C。有點類似B+2=4,B+C=6,必須先求得B的解才能解第二個方程式。其餘E與F、F與G、L與K都是相同情況。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?

VLIW 4

VLIW 4架構中缺乏動態調度功能,某些環境使用率相當低。在週期一當中,由於Wavefront C必須依賴Wavefront B,因此SIMD的第三與第四組ALU處在閒置狀態。同樣的情況在週期二、三、五都出現,特別是週期三與五效率特差,只有執行1組Wavefront。理 想中的高效率滿載狀態,只有週期四與六可達到。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲Wavefront B與C的相依性並未解決,加上缺乏動態調度,只能讓第三與第四組ALU閒置。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲上個週期未處理的Wavefront C,被留到這個週期運算。由於Wavefront E與F又存在相依性,因此F不能在這個週期處理,使得第四組ALU閒置。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲這個週期依序處理Wavefront F,由於Wavefront G依賴Wavefront F,因此Wavefront G、H、I只能延後處理。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲由於此週期沒有相依性,因此能依序處理Wavefront G、H、I、J。這也是VLIW 4架構最理想的狀態。
完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲依序處理Wavefront K,但是Wavefront K與L又有相依性,週期五只能單獨處理Wavefront K。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲剩下的Wavefront L、M、N、O都沒有相依性,因此能執行4個Wavefront。VLIW 4架構處理15個Wavefront總計花費6個週期。

Compute Unit

透過GCN的CU運算,由於具備動態調度功能,因此在允許的行況下,可先執行順位較低的Wavefront。像是週期一當中,可先略過依賴 Wavefront B的Wavefront C,先執行Wavefront D與E。如此一來,15條Wavefront只需要1組CU花費4個週期就能處理完畢,足足比VLIW 4少了2個週期。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲由於Wavefront B與C存在相依性,透過動態調度功能,可讓排程在後面的Wavefront D與E先行運算,讓CU的SIMD陣列滿載。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲週期二接著處理Wavefront C,其中依照順序應該接著處理Wavefront F、G、H,不過Wavefront G與F有相依性,因此捨棄Wavefront G先行處理Wavefront I。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲週期三繼續運算Wavefront G,Wavefront L跟K有相依性,因此先處理順位中的Wavefront M。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲最後一個週期將剩下的Wavefront處理完畢,一共花費4個週期就處理完畢。其中週期一、二與三都是滿載。

(下一頁:GCN:率先使用新規格)

魯蛇實驗室
作者

戶田惠梨香 新垣結衣 長澤雅美 吉高由里子 志田未來 北川景子 香里奈 竹內結子 北乃紀伊 菅野美穗 黑川智花 宮崎葵 夏帆 貫地谷詩穗梨 石原里美 有村架純 井上真央 真野恵里菜 能年玲奈 深田恭子

使用 Facebook 留言
PCABC
1.  PCABC (發表於 2012年4月01日 15:18)
看了這篇之後 我更想了解開普勒的架構了

真不知道是怎樣弄得 竟然功耗降著麼多

680還可以把7970壓在地上打

Charlie Chou
3.  Charlie Chou (發表於 2012年4月01日 17:36)
"...即使是X79用的四通道記憶體頻寬(memory bandwidth)不過30~50GB/s左右,HD 7970上的GDDR5記憶體頻寬可高達264GB/s,是系統記憶體的數倍,有助於通用運算與少部分遊戲。"

問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
然後加上延遲應該會比系統記憶體更高...
這樣真的會有用嗎?
PCABC
4.  PCABC (發表於 2012年4月01日 20:04)
※ 引述《Charlie20083》的留言:
> "...即使是X79用的四通道記憶體頻寬(memory bandwidth)不過30~50GB/s左右,HD 7970上的GDDR5記憶體頻寬可高達264GB/s,是系統記憶體的數倍,有助於通用運算與少部分遊戲。"
>
> 問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
> 然後加上延遲應該會比系統記憶體更高...
> 這樣真的會有用嗎?
>




記憶體是雙向的阿

對主板那邊當然是夠 但對GPU那裡當然是要更快才行啦

CPU的快取也是相同道理 一樣快的話 何須另加記憶體

資料全部暫存在主機板的記憶體就好啦 還比較便宜咧

╮(╯_╰)╭
Shinwill
1人給推

5.  Shinwill (發表於 2012年4月01日 20:47)
※ 引述《Charlie20083》的留言:
> 問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
> 然後加上延遲應該會比系統記憶體更高...
> 這樣真的會有用嗎?

一般顯示卡所稱的記憶體頻寬
是指 GPU 與 VRAM 間溝通的頻寬
05f1939cb8e3224017e4aa38bb3e4f88?size=48&default=wavatar
6.  00351 (發表於 2012年4月01日 21:10)
難怪AMD一直都有驅動程式的包袱
每出一批新遊戲
都必須一一改版來修正遊戲特效BUG
或效能低落的問題
魯蛇實驗室
1人給推

7.  魯蛇實驗室 (發表於 2012年4月02日 10:11)
※ 引述《PCABC》的留言:
> 看了這篇之後 我更想了解開普勒的架構了
>
> 真不知道是怎樣弄得 竟然功耗降著麼多
>
> 680還可以把7970壓在地上打
>
>
28nm是主因,再者,kepler持續改良兩代的fermi架構
架構上更完善,電力效率自然表現更好
PCABC
8.  PCABC (發表於 2012年4月02日 14:18)
※ 引述《tandee》的留言:
> ※ 引述《PCABC》的留言:
> > 看了這篇之後 我更想了解開普勒的架構了
> >
> > 真不知道是怎樣弄得 竟然功耗降著麼多
> >
> > 680還可以把7970壓在地上打
> >
> >
> 28nm是主因,再者,kepler持續改良兩代的fermi架構
> 架構上更完善,電力效率自然表現更好



這期雜誌講的還蠻詳細的

Shader的部分更證實了我的疑慮 拿掉後核心頻率終於上的來了

若真有GK110 GTX685我想應該就像是460跟465的差距一樣吧

通用運算效能大增 但遊戲效能沒增多少

GPU面積大增 結果超吃電 ╮(╯_╰)╭


4fee7e03816a5222df6f7d5fb4297ec4?size=48&default=wavatar
9.  散彈槍 (發表於 2012年4月02日 20:19)
※ 引述《PCABC》的留言:
> ※ 引述《tandee》的留言:
> > ※ 引述《PCABC》的留言:
> > > 看了這篇之後 我更想了解開普勒的架構了
> > >
> > > 真不知道是怎樣弄得 竟然功耗降著麼多
> > >
> > > 680還可以把7970壓在地上打
> > >
> > >
> > 28nm是主因,再者,kepler持續改良兩代的fermi架構
> > 架構上更完善,電力效率自然表現更好
>
>
>
> 這期雜誌講的還蠻詳細的
>
> Shader的部分更證實了我的疑慮 拿掉後核心頻率終於上的來了
>
> 若真有GK110 GTX685我想應該就像是460跟465的差距一樣吧
>
> 通用運算效能大增 但遊戲效能沒增多少
>
> GPU面積大增 結果超吃電 ╮(╯_╰)╭
>
> 很難講喔,以規格來說,基本上可以把兩家目前的雙核卡王打趴,而且可能跟580差不多耗電而已,跟460和465是完全不一樣的狀況阿,畢竟GK110比GK104較像是GTX580比上GTX460才對(所以我覺得GK110相當有可能是7系列的),不過因為良率問題,所以要等到8月才會出來。
>
方
10.  (發表於 2012年4月04日 11:07)
其實打趴這句話言過其實了╯-__-)╯ ╩╩
兩者拉距肯定在玩遊戲時看不太出來
為求爽度而已

7970輸在兩點
1. 價格還不降?
2. 不CP求爽度時~我若有錢想買只買老大 ~說白點680也不夠看
發表回應
謹慎發言,尊重彼此。按此展開留言規則