GPU發展簡史,從NVIDIA Fermi到Maxwell:核心群組打散重排,製程未改中階先行

ADVERTISEMENT

Keper:28nm製程先行者

從Fermi接棒到Kepler,最明顯的規格差異就是製程從40nm提升到28nm,意即相同的面積內能塞下更多的電晶體。或是相同的電晶體數量,只需要更小的面積即可達到相同的效能。

取消Shader分頻機制

老玩家應該都知道NVIDIA的架構設計相當特別,Shader時脈不等於核心時脈。早在G71時期NVIDIA嘗試Shader分頻技術,當時Shader時脈僅比核心時脈(Core Clock)高出數10MHz,直到G80時期才徹底近入分頻時代,到了GT 200之後,核心、Shader時脈才將比例固定為1:2。如果安裝GPU-Z等軟體,可看到早期NVIDIA顯卡的Shader時脈,而現在沒了Shader時脈,但卻多了Boost時脈。

Shader分頻技術對當時NVIDIA好處是很明顯的,能夠以較少的運算資源換取大量的吞吐量。搭配Co-Issue技術,讓NVIDIA保住Shader運算量的底限。以至於G80甚至後期的GF 110,都能用較少的CUDA Core數量來取得運算上的抗衡能力。節省出來的電晶體,更可用來配置其他硬體單元,這些都是Shader分頻所帶來的優勢,但到了Kepler卻放棄這行之有年的設計,為什麼呢?

分頻設計好歸好,但是仍是雙面刃。這問題不難想像,主要是分頻後的Shader時脈過高,會提早壓迫到核心與技術所能承受的時脈上限,讓GPU的溫度與發展都受到限制。實際來說會造成核心發熱量不均,連帶影響其他元件的效能。且嚴重時會迫使其他硬體單元以較低的時脈運作,破壞整個GPU運算流水線的平衡。Kepler回歸同頻機制,也讓Kepler有較大的時脈提升空間,把核心時脈一舉突破1.0 GHz大關。

動態超頻的GPU Boost

相較於CPU有動態超頻的Turbo Boost等技術,NVIDA在Kepler時期也導入GPU Boost功能,而AMD陣營也有類似但不相同的技術,該技術名為Boost State。簡單來說,該技術會視運作環境的功耗、負載、時脈等參數,若在容許值範圍內,則會稍微再拉高時脈,藉此提升效能表現。可以想像成早期顯示卡在2D與3D模式下的時脈設計,但過程更為複雜且會即時、動態調整時脈。當然這一切都是自動在背景作業,你能變動的並不多,最多就是調整Power Target(目標功耗),讓顯卡的超頻空間更高,但仍有個上限並非無限提升。

核心大堆疊時代

相較於Fermi的CUDA Core數量,Kepler時代得益於製程,有爆發性的提升。比較GF 100、GF 110、GK 104、GK 110的CUDA Core數量,分別為480個、512個、1533個、2880個。不難看出Kepler時代的高階卡,CUDA Core數量遠高於Fermi時代。若未來Maxwell有機會使用20nm製程,或許這數字還會向上攀升,畢竟效能提升的最快方法,就是大量堆疊內容。當然,Kepler還有許多創新的功能,像是Adaptive VSync、TXAA等,但礙於篇幅有限,只能讓我們繼續看接下來的Maxwell。 

Kepler核心架構圖

GPU發展簡史,從NVIDIA Fermi到Maxwell:核心群組打散重排,製程未改中階先行

比較前幾頁的Fermi,Kepler核心規模大得多。但基本構成單位CUDA Core沒改變,但SM內藏的數量與結構有大幅度的調整。此外,Kepler的PCI-E介面更改為3.0版本,也是此架構最大的特點。 

SMX架構圖

GPU發展簡史,從NVIDIA Fermi到Maxwell:核心群組打散重排,製程未改中階先行

如果把Kepler核心的SMX放大,則會看到比Fermi更多的LD/ST存取單元,這也代表Kepler在單一周期處理的執行緒數量高於Fermi。

Maxwell:製程不變,效率取勝

終於來到了這次的主角Maxwell,Fermi帶來全新的PolyMorph Engine,Kepler藉由製程精進大幅堆疊CUDA Core數量,且取消了行之有年的Shader分頻機制。那麼Maxwell帶來什麼新的架構設計呢?有,那就是重新排列組合的SMM單元。

大量部署控制邏輯

SMM是什麼東西,原來就是Fermi時代的SM、Kepler時代的SMX,指的都是那由CUDA Core、PolyMorph Engine等單元構成的Streaming Multiprocessor,為了不讓。改名成SMM有什麼變化?簡單來說是將SMM單元內藏的CUDA Core數量微調,從192個降低到128個。其中SMM內分成4個小區塊,每個區塊內有獨立的控制邏輯(Control Logic),以往這些控制邏輯需要負責大量的CUDA Core,透過小區塊切割,根據官方數據每個CUDA Core效能約是先前的1.35倍,而每瓦的效能約是先前的2倍。

目前Maxwell架構的GPU只有GM 107這個型號,在GM 107當中共計有5個SMM組成1個GPC(Graphics Processing Cluster)。也因為GM 107並不像GK 104、GK110是高階核心,因此架構規模相對精簡。未來Maxwell若推出高階核心,像是GM 100就有可能搭載多個GPC,而這次的GM 107只是基本版Maxwell而已。

如果先翻下一章節的效能篇,可以看到Maxwell架構的確優於過去的同級產品,意即在效率方面的確有其出色之處。但若要說Maxwell在架構上有些什麼重大改變,若只從架構圖以及僅有的GM 107中階核心來看,的確沒有太大的改變。而2013年GTC曾公開的規劃上,2014年推出的Maxwell應搭載Unified Virtual Memory技術。但這次的產品上並無支援該功能,或許得真的要等到年中之後完整版才會看到。

GM 107只是個開始

通常新架構都能讓人感到驚喜,但這次NVIDIA改變以往的策略,並非從最高階的版本向下依序推出,而是從GTX 700系列中間殺出,讓人惋惜沒機會見到Kepler新一代的中階卡。至於新推出的Maxwell架構除最佳化外,看不太出來有太大幅度的變革,或許驚喜還在未來高階版本上。

Maxwell核心架構圖

GPU發展簡史,從NVIDIA Fermi到Maxwell:核心群組打散重排,製程未改中階先行

畢竟是中階卡,GM 107的核心規模比不上Kepler那麼誇張。但從中不難看出,若未來高階版本推出,必然是這規模的2倍甚至4倍以上的規格。那時考驗的不僅是工藝技術,更會考驗散熱的設計能力。

SMM架構圖

GPU發展簡史,從NVIDIA Fermi到Maxwell:核心群組打散重排,製程未改中階先行

從SM、SMX、SMM一路走來,內藏的單元種類變動量不大,大多是數量上的調整。這次SMM內被切割成4個子區塊,有助於提升單一CUDA Core的運算效率。

GPU發展簡史,從NVIDIA Fermi到Maxwell:核心群組打散重排,製程未改中階先行

每次架構更新都會有主要的強化項目,但Maxwell這次受限於提早佈局,原先預定的Unified Virtual Memory並未有更進一步的說明。

GPU發展簡史,從NVIDIA Fermi到Maxwell:核心群組打散重排,製程未改中階先行

近年GPU發展相對遲緩,除了堆疊架構增加效能之外,再來就是架構排列最佳化,讓運算效率藉此提升。

本文同步刊載於電腦王雜誌
  GPU發展簡史,從NVIDIA Fermi到Maxwell:核心群組打散重排,製程未改中階先行
歡迎加入電腦王雜誌粉絲團

魯蛇實驗室
作者

戶田惠梨香 新垣結衣 長澤雅美 吉高由里子 志田未來 北川景子 香里奈 竹內結子 北乃紀伊 菅野美穗 黑川智花 宮崎葵 夏帆 貫地谷詩穗梨 石原里美 有村架純 井上真央 真野恵里菜 能年玲奈 深田恭子

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則