新卡王核心 Kepler 解析:28nm 製程加持、2倍電力效率、更快的速度

ADVERTISEMENT

Kepler:4大軟硬體新技術

看完架構可能有些讀者會有些失望,這不是跟Fermi差不多嗎?平心而論,Fermi歷經GF 100與GF 110的磨練已經相當成熟,且在GPGPU運算上仍勝AMD一籌,實在沒有更換架構的需要。因此Kepler延續Fermi的多數設計,也是意料中的情況。不過在架構之外,NVIDIA也新增了軟硬體方面的新技術,尤其是GPU Boost、Adaptive VSync都是很簡單的概念,但是帶來的效益卻十分明顯,也是Kepler的另一個亮點。

似曾相似的GPU Boost

Kepler新增4個新技術,其中GPU Boost從字面上來看,不難看出是GPU超頻的功能。其實說穿了就是Intel用的Turbo Boost,或是AMD的Turbo Core技術,只是角色從CPU換到了GPU。GPU Boost可在GPU負載與功耗較低時,開啟自動超頻功能。

GTX 680具備Base Clock(基本時脈)與Boost Clock(提升時脈),前者是任何遊戲或軟體都能達到的時脈,在GTX 680上則是1006MHz。後者則是所謂自動超頻時脈,得視運作環境的功耗與負載而定,而且不提供任何時脈上的保證,白話來說就是不保超。若Power Target(目標功耗)較高,則有較大的自動超頻空間,反之則會維持Base Clock。

硬體架構、軟體控制

那GPU Boost是硬體還是軟體控制?官方曾說:「GPU Boost is not based on profile」,這表明了GPU Boost並非只是透過設定檔自動超頻。更精確地說,GPU Boost是透過PCB的監控晶片分析供電狀態,並決定是否應該提升核心時脈。這部分是採用硬體架構,即使不裝額外的監控軟體也能支援。但是受限於監控晶片,因此無法透過驅動或BIOS升級讓舊卡支援GPU Boost,且無法強制關閉,是比較可惜之處。

其次,GPU Boost也能透過軟體控制,像是EVGA推出的PrecisionX,就能調整Power Target的數值,藉此提升Boost Clock。在Power Target設定中,預設是100%,代表官方預設的175W耗電量。透過軟體最高可提升到132%,也就是約225W,這個數值代表PCI-E與2個6pin電源所能提供的最高電量,若不修改供電模組最大上限就是132%、225W。

GPU Boost實戰

在不同的環境下,時脈與電壓會隨負載動態變化而非定值。若提高Power Target設定,就能增加時脈的超頻空間。不過Boost Clock並非絕對值,官方無法給予保證能提升的數值,以編輯部測試而言,最高會提升到1110MHz。

新卡王核心 Kepler 解析:28nm 製程加持、2倍電力效率、更快的速度

▲GPU Boost實戰:閒置時脈(Idle Clock)

新卡王核心 Kepler 解析:28nm 製程加持、2倍電力效率、更快的速度

▲GPU Boost實戰:基本時脈(Base Clock)

新卡王核心 Kepler 解析:28nm 製程加持、2倍電力效率、更快的速度

▲GPU Boost實戰:提升時脈(Boost Clock)

TDP關聯性低

TDP在NVIDIA官方定義中指的是Thermal Design Power,也就是熱設計功耗。是指GPU在最高負載中所發出的「熱」,單位是W。有些人認為Kepler的GPU Boost的超頻數值是基於TDP而定,但是向官方求證後的結果,並非如此,GPU Boost主要取決於供電量(Power Target)的多寡,而非TDP。

那GPU Boost到底能超到多少?在預設情況下,對於電力負載在70~90%左右的遊戲,時脈大多能提升到1110MHz,提升幅度約為11%。以自動超頻的幅度來說,算是相當高。

關鍵字:TDP

TDP是Thermal Design Power,也就是熱設計功耗的縮寫。用於表示GPU在最高負載下所產生的熱能,計算單位跟功耗相同都是W(瓦特,每秒產生1焦耳能量)。TDP目的在於給予散熱器廠商核心最高發熱的參考數值,用於設計適合該核心的散熱器。由於採用W做為計算單位,很多人會將TDP與耗電量混淆,這2個數值實際上定義不同,不能將TDP視為耗電量。

異想天開的VSync

第二個有趣的功能是Adaptive VSync(自適性垂直同步),這也是個很簡單的概念,但是卻能達到不錯的效果。以往開啟垂直同步為的是避免螢幕撕裂(Tearing),但是開啟後若碰到某些負載增加的場景,又會讓螢幕從60幀瞬間掉到30幀,造成畫面明顯的停頓。

Adaptive VSync主要的功能,就是減緩這停頓(老外稱之為Stutter,也就是口吃)的情況。相信很多人都有這樣的經驗,當場景從極遠處快速拉到極近處,在某個點FPS會大幅滑落,透過這種方式就能減緩這頓挫感。實作的方式也很簡單,就是當FPS低於60時,GPU會快速關閉垂直同步功能,讓FPS瞬間提升用以抵銷Stutter帶來的FPS衰減。當FPS到60時,就再度開啟垂直同步功能,避免發生影像撕裂。

Adaptive VSync運作原理

新卡王核心 Kepler 解析:28nm 製程加持、2倍電力效率、更快的速度

從這張曲線比較複雜的那張圖看起,藍綠色代表關閉垂直同步的FPS表現,可看到曲線雖然有高低起伏,但是曲線仍算平順。以人的視覺來說,感覺不太出來FPS的改變。而黃色的水平與垂直線,則是代表開啟垂直同步的FPS表現,當影像中突然有大量頂點需要運算時,就會發生FPS大幅衰減的情況,也就是圖片中紅色的Stutter區塊。

新卡王核心 Kepler 解析:28nm 製程加持、2倍電力效率、更快的速度

Adaptive VSync後能擷取兩者的優點,若FPS高於60幀則開啟垂直同步,避免GPU提供過量的影像造成撕裂(Tearing)。若FPS低於60幀,則會關閉垂直同步,提高GPU運算量,降低Stutter造成的影像停頓。

關鍵字:垂直同步(Vertical Synchronization)

新卡王核心 Kepler 解析:28nm 製程加持、2倍電力效率、更快的速度

LCD的每個影像都是由掃瞄線垂直、水平掃瞄組成,其中垂直訊號是指從螢幕頂端掃到底端。性能過強的GPU會無限制地繪製影像,送到螢幕中等待顯示,當開啟垂直同步後,掃瞄線到達底端時,才會通知GPU可以繪製下一張圖片。若沒有垂直同步,GPU提供影像的速率高於螢幕更新率,會造成影像撕裂(Tearing),簡單來說就是前面的圖還沒貼完,下一張就來了。在圖片與圖片之間,就會造成影像的斷層,開啟垂直同步能避免這個問題。(圖片來源:Wikipedia)

衰減更少的TXAA

反鋸齒(Anti-Aliasing,簡稱AA)一直是高階顯卡的重要課題,雖然FXAA(Fast Approximate Anti-Aliasing)才沒出現多久,現在又來了新的TXAA讓人有些摸不著頭緒。TXAA是MSAA的強化版本,共有TXAA 1與TXAA 2等級可選,TXAA 2的反鋸齒效果高於TXAA 1。

若與MSAA相比,不論TXAA 1或TXAA 2反鋸齒品質都比8倍MSAA高。且TXAA 1只有2倍MSAA的效能衰減幅度,而TXAA 2只有4倍MSAA的效能衰減。簡單來說,TXAA比先前的MSAA效果更好,而且對於效能的耗損也更低。

TXAA得要遊戲支援才能開啟,目前預計有EPIC、Unreal Technology、Crytek等廠商預計支援該技術。至於在先前的FXAA部分,已經將功能內建於NVIDIA控制面板內,即使遊戲不支援一樣能強制開啟FXAA,且還能搭配其餘反鋸齒技術執行。

TXAA、MSAA細節表現

新卡王核心 Kepler 解析:28nm 製程加持、2倍電力效率、更快的速度(點圖可放大)

新卡王核心 Kepler 解析:28nm 製程加持、2倍電力效率、更快的速度

(點圖可放大)

新卡王核心 Kepler 解析:28nm 製程加持、2倍電力效率、更快的速度

(點圖可放大)

3D模組中只要不是水平或垂直線就會產生鋸齒,而以往常用的MSAA(Multisample Anti-Aliasing,多重採樣反鋸齒)過於耗費效能。現在TXAA表現高於8倍MSAA,又只要4倍或2倍MSAA的效能,只要遊戲廠商肯買單,勢必會成為未來趨勢之一。圖中可看到,TXAA的細節表現略高於8倍MSAA,與未開啟之前差距也很明顯。

多重3D螢幕來了

以往Fermi最令玩家詬病的就是無法單卡三螢幕輸出,Kepler徹底解決了這個問題,最高可支援4螢幕輸出,且能搭配3D Vision Surround技術,建構立體多螢幕。此外,以往延伸桌面中,被螢幕邊框遮蔽的部分,能透過驅動程式進行邊框校正(Bezel Correction),讓多螢幕遊戲時的影像更完整。

GK 104不是終點

Kepler首發型號雖然是GTX 680,但是核心代號卻是GK 104而非GK 100或GK 110。或許有人會說這是NVIDIA的障眼法,故意混淆視聽。筆者認為,GK 104的設計與定位應該更適合用在GTX 670身上,Kepler最高階核心不應該是GK 104,因為它表現出太多餘力,沒有以往高階核心逼極限效能的感覺。

28nm製程讓核心溫度低、耗電量少、效能也不錯,有不少提升的空間。至少就目前GTX 680的表現來看,除了價位見仁見智之外,堪稱完美的頂級卡,沒有明顯的缺點可挑,可見核心的效能還沒被完全壓榨出來。我們可以期待不久之後,可能會有更高階的GTX 685或是雙核心GTX 690。

▲假設Fermi與Kepler在相同環境中,Fermi的Shader時脈為Kepler的2倍,而Kepler的CUDA Core數量是Fermi的2倍,可得到右方的結果。從理論上而言,Kepler核心面積約為Fermi的1.8倍,但是運算相同的資料量,電力只需要耗費Fermi的90%。若從運算方面分析,單位面積下Kepler只需要Fermi約50%的功耗就能完成相同的運算。

使用 Facebook 留言

B0b3b8213c360f5649126fbbcfae9509?size=48&default=wavatar
1.  STEN (發表於 2012年5月25日 16:39)
拜讀了大大的文章,小弟目前遇到一個問題
1.一台主機要做2560*1600解析度(用WFP3008)
2.使用DVI-D輸出解析度到1920*1200都正常,到2560*1600字就像被狗啃得一下,換過線材,顯示卡都一樣
3.使用DISPLAY PORT沒有這個問題
4.但是我需要使用DVI PORT有解嗎?

求解法~
回覆可以回到我的EMAIL~
魯蛇實驗室
2.  魯蛇實驗室 (發表於 2012年5月25日 16:55)
※ 引述《STEN》的留言:
> 拜讀了大大的文章,小弟目前遇到一個問題
> 1.一台主機要做2560*1600解析度(用WFP3008)
> 2.使用DVI-D輸出解析度到1920*1200都正常,到2560*1600字就像被狗啃得一下,換過線材,顯示卡都一樣
> 3.使用DISPLAY PORT沒有這個問題
> 4.但是我需要使用DVI PORT有解嗎?
>
> 求解法~
> 回覆可以回到我的EMAIL~

先問一下,你用的線材是否支援Dual-link DVI,雖然都是dvi線材,但是要上高解析度必須用Dual-link DVI線材才行。從外觀來看,Dual-link DVI線材會比一般dvi線粗上一倍。
>
E7790291db0785bbcec825b6fb39c030?size=48&default=wavatar
3.  DELL (發表於 2012年5月25日 19:51)
建議還是使用DisplayPort才能發揮它的色彩, 不然就只能用Dual-link DVI Cable。
915d9803ff03194e0541a773a73c40b3?size=48&default=wavatar
5.  S (發表於 2012年5月25日 23:53)
※ 引述《tandee》的留言:
> 我們可以期待不久之後,可能會有更高階的GTX 685或是雙核心GTX 690。

GTX 690 早就已經出來了
不用再期待了,現在要買馬上就有
你只需要期待 GTX 685 而已

發表回應

謹慎發言,尊重彼此。按此展開留言規則