完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?

ADVERTISEMENT

圖解編譯器指令集排程

編譯器Wavefront時程序列

假設有A~O共15條Wavefront,順序是由A到O,且部分Wavefront存在相依性。其中C必須依賴B,也就是Wavefront C必須等到Wavefront B運算完畢之後,才能算Wavefront C。有點類似B+2=4,B+C=6,必須先求得B的解才能解第二個方程式。其餘E與F、F與G、L與K都是相同情況。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?

VLIW 4

VLIW 4架構中缺乏動態調度功能,某些環境使用率相當低。在週期一當中,由於Wavefront C必須依賴Wavefront B,因此SIMD的第三與第四組ALU處在閒置狀態。同樣的情況在週期二、三、五都出現,特別是週期三與五效率特差,只有執行1組Wavefront。理 想中的高效率滿載狀態,只有週期四與六可達到。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲Wavefront B與C的相依性並未解決,加上缺乏動態調度,只能讓第三與第四組ALU閒置。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲上個週期未處理的Wavefront C,被留到這個週期運算。由於Wavefront E與F又存在相依性,因此F不能在這個週期處理,使得第四組ALU閒置。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲這個週期依序處理Wavefront F,由於Wavefront G依賴Wavefront F,因此Wavefront G、H、I只能延後處理。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲由於此週期沒有相依性,因此能依序處理Wavefront G、H、I、J。這也是VLIW 4架構最理想的狀態。
完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲依序處理Wavefront K,但是Wavefront K與L又有相依性,週期五只能單獨處理Wavefront K。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲剩下的Wavefront L、M、N、O都沒有相依性,因此能執行4個Wavefront。VLIW 4架構處理15個Wavefront總計花費6個週期。

Compute Unit

透過GCN的CU運算,由於具備動態調度功能,因此在允許的行況下,可先執行順位較低的Wavefront。像是週期一當中,可先略過依賴 Wavefront B的Wavefront C,先執行Wavefront D與E。如此一來,15條Wavefront只需要1組CU花費4個週期就能處理完畢,足足比VLIW 4少了2個週期。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲由於Wavefront B與C存在相依性,透過動態調度功能,可讓排程在後面的Wavefront D與E先行運算,讓CU的SIMD陣列滿載。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲週期二接著處理Wavefront C,其中依照順序應該接著處理Wavefront F、G、H,不過Wavefront G與F有相依性,因此捨棄Wavefront G先行處理Wavefront I。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲週期三繼續運算Wavefront G,Wavefront L跟K有相依性,因此先處理順位中的Wavefront M。

完全看懂 HD 7970 新架構,GPU 如何跑出更高的效能?
▲最後一個週期將剩下的Wavefront處理完畢,一共花費4個週期就處理完畢。其中週期一、二與三都是滿載。

(下一頁:GCN:率先使用新規格)

使用 Facebook 留言

PCABC
1.  PCABC (發表於 2012年4月01日 15:18)
看了這篇之後 我更想了解開普勒的架構了

真不知道是怎樣弄得 竟然功耗降著麼多

680還可以把7970壓在地上打

Charlie Chou
3.  Charlie Chou (發表於 2012年4月01日 17:36)
"...即使是X79用的四通道記憶體頻寬(memory bandwidth)不過30~50GB/s左右,HD 7970上的GDDR5記憶體頻寬可高達264GB/s,是系統記憶體的數倍,有助於通用運算與少部分遊戲。"

問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
然後加上延遲應該會比系統記憶體更高...
這樣真的會有用嗎?
PCABC
4.  PCABC (發表於 2012年4月01日 20:04)
※ 引述《Charlie20083》的留言:
> "...即使是X79用的四通道記憶體頻寬(memory bandwidth)不過30~50GB/s左右,HD 7970上的GDDR5記憶體頻寬可高達264GB/s,是系統記憶體的數倍,有助於通用運算與少部分遊戲。"
>
> 問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
> 然後加上延遲應該會比系統記憶體更高...
> 這樣真的會有用嗎?
>




記憶體是雙向的阿

對主板那邊當然是夠 但對GPU那裡當然是要更快才行啦

CPU的快取也是相同道理 一樣快的話 何須另加記憶體

資料全部暫存在主機板的記憶體就好啦 還比較便宜咧

╮(╯_╰)╭
Shinwill
1人給推

5.  Shinwill (發表於 2012年4月01日 20:47)
※ 引述《Charlie20083》的留言:
> 問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
> 然後加上延遲應該會比系統記憶體更高...
> 這樣真的會有用嗎?

一般顯示卡所稱的記憶體頻寬
是指 GPU 與 VRAM 間溝通的頻寬
05f1939cb8e3224017e4aa38bb3e4f88?size=48&default=wavatar
6.  00351 (發表於 2012年4月01日 21:10)
難怪AMD一直都有驅動程式的包袱
每出一批新遊戲
都必須一一改版來修正遊戲特效BUG
或效能低落的問題
魯蛇實驗室
1人給推

7.  魯蛇實驗室 (發表於 2012年4月02日 10:11)
※ 引述《PCABC》的留言:
> 看了這篇之後 我更想了解開普勒的架構了
>
> 真不知道是怎樣弄得 竟然功耗降著麼多
>
> 680還可以把7970壓在地上打
>
>
28nm是主因,再者,kepler持續改良兩代的fermi架構
架構上更完善,電力效率自然表現更好
PCABC
8.  PCABC (發表於 2012年4月02日 14:18)
※ 引述《tandee》的留言:
> ※ 引述《PCABC》的留言:
> > 看了這篇之後 我更想了解開普勒的架構了
> >
> > 真不知道是怎樣弄得 竟然功耗降著麼多
> >
> > 680還可以把7970壓在地上打
> >
> >
> 28nm是主因,再者,kepler持續改良兩代的fermi架構
> 架構上更完善,電力效率自然表現更好



這期雜誌講的還蠻詳細的

Shader的部分更證實了我的疑慮 拿掉後核心頻率終於上的來了

若真有GK110 GTX685我想應該就像是460跟465的差距一樣吧

通用運算效能大增 但遊戲效能沒增多少

GPU面積大增 結果超吃電 ╮(╯_╰)╭


4fee7e03816a5222df6f7d5fb4297ec4?size=48&default=wavatar
9.  散彈槍 (發表於 2012年4月02日 20:19)
※ 引述《PCABC》的留言:
> ※ 引述《tandee》的留言:
> > ※ 引述《PCABC》的留言:
> > > 看了這篇之後 我更想了解開普勒的架構了
> > >
> > > 真不知道是怎樣弄得 竟然功耗降著麼多
> > >
> > > 680還可以把7970壓在地上打
> > >
> > >
> > 28nm是主因,再者,kepler持續改良兩代的fermi架構
> > 架構上更完善,電力效率自然表現更好
>
>
>
> 這期雜誌講的還蠻詳細的
>
> Shader的部分更證實了我的疑慮 拿掉後核心頻率終於上的來了
>
> 若真有GK110 GTX685我想應該就像是460跟465的差距一樣吧
>
> 通用運算效能大增 但遊戲效能沒增多少
>
> GPU面積大增 結果超吃電 ╮(╯_╰)╭
>
> 很難講喔,以規格來說,基本上可以把兩家目前的雙核卡王打趴,而且可能跟580差不多耗電而已,跟460和465是完全不一樣的狀況阿,畢竟GK110比GK104較像是GTX580比上GTX460才對(所以我覺得GK110相當有可能是7系列的),不過因為良率問題,所以要等到8月才會出來。
>
方
10.  (發表於 2012年4月04日 11:07)
其實打趴這句話言過其實了╯-__-)╯ ╩╩
兩者拉距肯定在玩遊戲時看不太出來
為求爽度而已

7970輸在兩點
1. 價格還不降?
2. 不CP求爽度時~我若有錢想買只買老大 ~說白點680也不夠看

發表回應

謹慎發言,尊重彼此。按此展開留言規則