52e6d2d5ffae58f3385cc98d49025ea1 從最初GK 104到現在的GK 110,想想Kepler架構也經歷了1年多的時光。Kepler與Fermi架構相同,完整架構的版本都在後期才現身,這次NVIDIA對付R9 290X的方案就是規格更完整的GTX 780 Ti。GTX 780 Ti可不是簡單的超頻版,它擁有比GTX TITAN更完善的架構設計,亦大於先前的頂級卡GTX 780,是Kepler家族中最頂級的版本。

架構增加、面積縮減

在相同製程、核心架構的前提下,GPU的核心面積應該完全相同。Kepler架構中,GTX 780 Ti使用的是GK 110-425-B1核心,GTX TITAN的GPU型號是GK 110-400-A1,先前的頂級卡GTX 780則是GK 110-300-A1。前者核心面積為533m㎡,後兩者則是551m㎡。應該是B1版本對於某些電路最佳化,導致核心面積不同。最初不推出完全版本,一方面可能是市場與戰略考量,二來更可能的原因是功耗與廢熱的因素所致。

推出GTX 780 Ti之前,繪圖領域的Quadro K6000就先使用完整GK 110核心,這顆GPU已經經過了一段時間的考驗,功耗與廢熱應該不是太大的問題。然而GTX 780 Ti上市後傳出零星的燒卡災情,後來發現是有廠商為了節省成本等因素,直接套用GTX 780的PCB(Printed Circuit Board,印刷電路板)所致。兩者雖然規格相似,但使用的PCB與用料有些微差別,也因為這微幅的差異,導致供電出問題燒了顯卡,也還好與GPU設計無關,否則召回顯卡可就不是好玩的事情了。

最完美版本,搶攻卡王地位

GK 110家族眾多,從繪圖領域的Quadro到高速運算的Tesla,最後則是遊戲領域的GeForce全都看得到。這次GTX 780 Ti搭載的GK 110-425-B1核心,內有2880個CUDA Core,也就是過去我們簡稱為SP的Streaming Processor,是GPU內最基本的運算單位,GK 110-425-B1是NVIDIA目前規模最龐大的GPU。

關鍵字:比特幣

比特幣(Bitcoin簡稱BTC)是種使用者自製的加密電子貨幣,可透過電子貨幣交易所、服務商、個人等方式換取實體貨幣,也可以購買服務或實體產品。比特幣可透過P2P網路完成特定的數學運算產生,也就是俗稱的挖礦。每4年產生的比特幣數量會減半,最終發行量趨近於21000000個位元幣。目前比特幣匯率約可讓1位元幣兌換到新台幣23618元,也有業者推出實體的貨幣,圖是Casascius發行的1位元幣。(圖片來源:Wikipedia)

規模直接影響效能

GPU架構設計上,都是先設計最完美的版本,再逐步精簡成各等級的GPU。GTX 780 Ti內有15組SMX(Streaming Multiprocessor),每組SMX底下包含192個我們剛剛提到的單精度(Single Precision)CUDA Core,另有64個雙精度(Double Precision)單元、32個特殊功能(Special Function)單元,最後則是32個載入/儲存(Load/Store)單元。從SMX的內容來看,不難想像SMX的數目多寡會直接影響GPU的運算能力。GTX 780 Ti擁有15組SMX、GTX TITAN則有14組、僅有13組SMX的GTX 780位居最後。

隱晦的雙精度運算

GTX 780 Ti畢竟是遊戲卡而非高速運算卡,即便有著比GTX TITAN還要龐大的核心規模,但在各方面的限制下,雙精度運算仍不如GTX TITAN。從驅動程式頁面中,GTX TITAN有個開啟雙精度的選項,開啟後可大幅提升雙精度運算效能。GTX 780或是這次的GTX 780 Ti,驅動程式頁面仍沒有雙精度的選項,可想而知即便核心內有960個雙精度運算單元,但在官方刻意限制下,仍無法發揮應有的效益。不過雙精度運算對於一般人並沒有用處,最有可能的大概只有用GPU挖比特幣(Bitcoin)這件事了。

顯示輸出問題多

支援這次我們找來Battelfield 4做為4K解析度的測試遊戲,實測過程中也發現不少問題。首先當然是螢幕更新率的問題,先前也提過目前電視的更新率是每秒30幀,而螢幕的更新率較高可達60幀以上。再者是連接線材需要符合一定的規範,且目前的螢幕可能透過雙HDMI合併的方式拼出4K解析度的影像。若碰到CrossFire或是SLI這類複雜的運算方式,就有可能讓顯示出現問題。

目前獨顯當中,不保證所有顯卡都能完美地輸出4K訊號,不少產品都會碰到影像閃爍、影像顯示不正常等問題。所幸目前4K還算是開發階段,也不是當今的主流產品,但若是想要嚐鮮的玩家,買之前還是要審慎考慮。

4K 遊戲極耗資源

在Battlefield 4測試中,即便是GTX 780 Ti這類高階卡,碰到4K解析度、高特效環境還是相當吃力,且效能會隨著特效強度增加而大幅衰減。以單張GTX 780 Ti的情況來說,在系統設定的最高特效環境下,平均FPS約為34幀,瞬間最高約為40幀,最低則是15幀左右。以最高特效的Battlefield 4來說,用高階卡玩遊戲稱不上順暢,尤其是碰到爆破、陰影複雜的場景更為明顯。

但若將特效降低到「高」,此時平均FPS就會從34幀提升到53幀,此時流暢度表現就有一定的水準。單張卡未必不能順順地跑Battlefield 4,就看特效強度而定。不過最高階的GTX 780 Ti才有這樣的水準,若降低到GTX 770等中階卡表現就肯定不怎樣。

雙卡可應付高特效

單張顯卡搞不定最高的特效強度,簡單的方法就是再加顯卡。AMD的CrossFire與NVIDIA的SLI顯示卡串連技術行之有年,簡單說就是讓2張顯卡透過AFR、SFR、AFR of SFR等模式,共同輸出影像。這也是目前最快突破效能極限的方式,但串連數量越多耗損越高,2張顯卡的效能約只有單卡的1.5~1.8倍左右,無法達到理論上的「1+1=2」。

編輯部找來2張GTX 780 Ti,想看看透過SLI是否能打破4K的極限。還好測試結果不錯,2張GTX 780 Ti足夠應付4K解析度且特效最高的環境。平均FPS約為58幀,是單卡效能的1.7倍。若將特效逐步降低到高、中等、低,平均FPS會提升到85、110、135幀。分別是單卡效能的1.6、1.52、1.55倍,不難看出特效強度越高SLI的效率較高。

關鍵字:AFR、SFR、AFR of SFR

AFR是Alternate Frame Rendering的簡稱,中文可譯為交替框架渲染。顧名思義就是將遊戲的Frame(幀)分為奇數與偶數幀,並依序將奇數交由GPU A負責運算,而偶數交給GPU B運算。

SFR是Split Frame Rendering的縮寫,中文為分割框架渲染。將畫面分割為上下或左右,分別由GPU A與GPU B運算,缺點是運算量難以平衡。另外亦有AFR of SFR的混合模式,大多應用於超過2個GPU的多重GPU環境。假設有4個GPU,運算方式是將Frame分為奇數與偶數,奇數的Frame再使用SFR技術切割,分別由GPU A與GPU B運算。

 

使用 Facebook 留言

發表回應

謹慎發言,尊重彼此。按此展開留言規則