2010.01.25 13:30

原子力巨獸GF100嘴炮模擬戰

ADVERTISEMENT

NVIDIA下一代Fermi架構早就是公開的秘密,不過實際效能卻一直是個謎。而CES之後NVIDIA提供媒體一份包含「少數」效能測試與特色的報告,配合之前的Fermi白皮書啃一啃,能稍微讓我們看出這巨獸的一些輪廓。

又見新代號

解說談到規格與性能之前,我們先來看看這所謂的Fermi是什麼?其實Fermi是曾得過諾貝爾物理學獎的已故物理學家Enrico Fermi,他是量子力學和量子場論的創立者之一。NVIDIA使用這個名字,應該也是想沾沾前人的光,看看新架構的GF100能不能帶給他們爆炸性發展。
而GF100是Fermi架構第一款顯示卡的代稱,其中G是指Graphics而F是Fermi,GF100同時也是該系列最高階型號。另外有小道消息指出,未來顯示卡推出時,將會是高、中、低階全系列一起發表。不過筆者猜測中低階市場,可能仍由GT200甚至由更改製程的G92填補。

ADVERTISEMENT

▲GF100架構相當龐大,L2快取與ECC除錯是最大的特色,另外還有Raster Engine與PolyMorph Engine。

大容量L2快取

從規格上來看,GF100具備512個CUDA核心,每32個構成一個群組,因此共有16個群組。比較重大的改進是讓每個群組擁有64KB共享/快取記憶體,可分配成16KB共享加上48KB的L1快取,或是48KB共享加上16KB的L1快取。另外還首次新增L2快取記憶體,容量還高達768KB,在這之前未曾有過顯示卡具有如此容量的L2快取記憶體。相比之下,GT200只有240個CUDA核心,只有16KB共享記憶體,運算效能與效率方面可望有相當大的突破,一般來說GF100執行大量運算時,估計會比GT200快上4.7倍。

ADVERTISEMENT

▲快取容量大增是GF100與GT200很大的差異,其中L2更增加到768KB。

▲SM(Streaming Multiprocessors)是運算上的基礎單位,內含32個CUDA核心與1個PolyMorph Engine。

ADVERTISEMENT

新增2種引擎

GF100共有4組GPC(Graphics Processing Cluster,圖形處理集群),並由4個SM(Streaming Multiprocessors)也就是128個CUDA核心等元件構成。值得注意的是,在GPC中新增Raster Engine與PolyMorph Engine,前者會依序執行Edge Setup、Rasterizer與Z-Cull。而後者PolyMorph Engine則是GF100最重要的關鍵,因為它掌握Vertex Fetch、Tessellation、Viewport Transform、Attribute Setup、Stream Output五個運算。因此也就是說,GF100單顆晶片最多可擁有16個Tessellation運算核心(主要是PolyMorph Engine),如此龐大的運算單元,足以讓顯示卡執行大量運算。另外,Tessellation只應用在物件中獨立的區域(可視為一層額外的材質),與原本的物件並不是直接相關,運算效能上並不會受到牽連,所以理論上同樣遊戲在DirectX 11與DirectX 10模式下,效能差距應該不大。

▲Tessellation是DirectX 11的關鍵,而PolyMorph Engine則是主要的運算單元。

ADVERTISEMENT

Tessellation是關鍵

DirectX 11時代來臨最大的關鍵就是Tessellation與DirectCompute、Displacement Mapping等技術,Tessellation簡單來說就是在原有的3D物件上,加上更多細節讓立體物件更有立體感與質感,同時Tessellation也會是DirectX 11影像表現更強大的關鍵。不過Tessellation並非新技術,只不過以前都是運用在電影特效居多。
相信大家都有經驗,即使像Crysis這樣的遊戲,在某些部分的立體感依然很差,像是鐵皮屋頂應該有波浪狀皺折,手槍的槍套應該不只是簡單的平面,很多地方都規避掉應該具有的立體感。然而運用DirectX 11後,就能在固有的物件上再貼上一層「材質」,讓物件的質感更好,也更接近人眼所看到的世界。

▲影片中可看出建築細節與龍的皮膚,在開啟Tessellation後有大幅的改變。

▲該軟體分別於兩陣營的顯示卡測試,平均來說GF100約有HD 5870近1.6倍效能。

▲各項Tessellation測試中GF100都有2倍以上效能,不過一般來說要搭配遊戲測試才準確。

開32X CSAA效能只降7%

打開遊戲特效常常會看到反鋸齒選項,而CSAA(Coverage Sample Anti-Aliasing)也是其中一種。CSAA早在G80核心就已經被應用,不過現在GF100的CSAA能夠開到32倍,而且Color samples與Coverage samples可分開處理,在品質與強度上面都有大幅提升。另外附帶一提,上一代GT200只能開16倍。
雖然反鋸齒效果很棒,但是顯卡不夠力,多數人還是寧願啟動「肉眼反鋸齒」,以免效能受到反鋸齒連累。不過就NVIDIA的數據資料來看,GF100開啟8倍傳統反鋸齒與32倍CSAA效能只差7%,不過沒提供開啟前後的差距,還有傳統反鋸齒與32倍CSAA的實際影像差異有點遺憾。

▲反鋸齒提高後衰減的幅度只有7%,不過應該要與未開啟之前做對照比較正確。

▲左圖是GT200開啟16CSAA,右圖則是GF100開啟32CSAA,若放大後可看出右圖細節較高且雜訊減少。

▲至於在自家AA效能方面,約有97%至133%的成長。

PhysX效能強3倍

在遊戲效能方面這次提供的資料著墨並不多,但是有部分特效上的效能差異可供參考。從數據上來看,PhysX Fluid測試PhysX效能可達GT200的3倍,新推出的遊戲Dark Void效能可達2.1倍,而Ray Tracing(光線追蹤)效能更是達到3.5倍,至於在AI的部分則約3.3倍。
其中比較值得期待的是Ray Tracing效能,當初利用GT200展示時,畫面雖然非常逼真,但是流暢度有待加強,然而實地看過GF100的Ray Tracing效果時,相當令筆者驚訝,處理速度與流暢度都大幅提升。

▲PhysX等特效能力大幅提升,平均來說都有2倍以上的成長。

▲這張照片是筆者用相機翻拍GF100的Ray Tracing效果,螢幕上的效果已經跟肉眼所見相近。

巨獸何時醒?

每當AMD推出新晶片前後,NVIDIA都會有意無意地釋出一些GF100的新消息,或許是要稍微搶一下報導版面,讓大家想起來還有這個沉睡中的晶片。說NVIDIA不緊張絕對是騙人的,不過到底何時這沉睡的巨獸才會醒,沒人說的準,大多數人都預估二月初開始大規模量產,今年3月前後會正式發表。
至於售價會落在哪裡?雖然問這個還太早,不過國外有網站取得GF100晶圓切割圖,一片晶圓最多能切出94顆GF100晶片,若按照台積電樂觀的40%良率來計算,單顆GF100晶片成本約在131美元左右,而目前AMD Cypress則約96美元。若要獲得足夠的利潤,預估市場售價會落在599美元,但是考量到對手可能會有些微的調整,最終應該落在Radeon HD 5970與HD 5870之間。

ADVERTISEMENT