NVIDIA GeForce RTX 30系列顯示卡架構說明，單卡滿足8K遊戲需求

GeForce RTX 30系列除了在顯示卡塞入更多運算單元之外，也導入許多全新架構與技術，帶來更加出色的遊戲效能表現，就讓我們一起來看看目前已經發表的GeForce RTX 3070、RTX 3080、RTX 3090等顯示卡的規格與特色。

3090不是2080 Ti加價，而是TITAN下凡

從產品的命名來看，可以很容易看出GeForce RTX 3070、RTX 3080分別就是要取代前代產品GeForce RTX 2070、RTX 2080，而且它們的官方定價也相同，因此並不會有產品定為混淆的問題。有趣的是GeForce RTX 3090這款新出現的型號，並沒有直接對應的前代產品可以參考，因此引發玩家聯想，它是否為GeForce RTX 2080 Ti的接班人。

但NVIDIA官方否定了這樣的說法。官方將GeForce RTX 3090定義為BFGPU（Big Ferocious GPU，大型兇猛GPU），其產品定位與TITAN RTX相同，除了搭載更龐大的運算資源外，還具有24GB顯示記憶體，除了能將遊戲效能推向極致之外，也能協助AI程式開發者與數位媒體創作者更快速完成工作，同時具有頂極遊戲卡與專業工作卡等雙重身份。

▲ GeForce RTX 30系列首波登場的產品為GeForce RTX 3070、RTX 3080、RTX 3090。

▲ GeForce RTX 3070就是用來取代GeForce RTX 2070的升級版本，官方定價都設定在美金499元。

▲ 根據官方提供的數據，GeForce RTX 3070能在1440p解析度下帶來1.6倍的效能提升。

▲ 相較於前代產品，GeForce RTX 3080無論在渲染器（Shader）與顯示記憶體上都有所提升。

▲ GeForce RTX 3080在4K解析度下的效能增益更是達到2倍。

▲ GeForce RTX 3090的定位與TITAN RTX相同，而非取代GeForce RTX 2080 Ti。

▲ GeForce RTX 3090除了能帶來極致遊戲效能外，也能在AI運算、多媒體創作等領域發揮長才。

更肥、更大，不過更安靜

為了要壓制GeForce RTX 30系列顯示卡的溫度，NVIDIA GeForce RTX 3080、RTX 3090等在採用了全新的散熱設計，顯示卡前端的風扇一樣會將氣流從擋板區域直接排出，而後端則採用「貫通式」設計，讓氣流直接穿透顯示卡的散熱鰭片，並將廢熱透過機殼上半部的風道排出（如電源供應器的風扇或處理器區域的風扇）。

為了要達到貫通氣流的效果，顯示卡的電路板也經過重新設計，在尾端留下V字型切角，以利氣流通過。受益於全新的散熱設計，GeForce RTX 3080、RTX 3090的運作溫度與噪音比GeForce RTX 2080、TITAN RTX都來得更低。

需要注意的是，這樣的設計是針對一般構造的機殼設計，像是有些強調視察展現的機殼會透過轉向卡將顯示卡旋轉為直立擺放，就可能降低全新散熱設計的功效，因此可能需要考慮其他板卡商所推出的自製卡。

▲ GeForce RTX 30系列將原本以背板支撐的結構設計，改變為使用一體成型的外框（圖中最下方的部分）承載顯示卡的重量，搭配千斤頂或高科技竹筷就能有效分散承重。

▲ 此外GeForce RTX 3080、RTX 3090還進一步改變電路板設計，以利在顯示卡尾端安裝「貫通式」風扇。上圖為GeForce RTX 2080 Super，下圖為 GeForce RTX 3080。

▲ 前端的風扇能將廢熱直接由機殼後方排出，尾端的風扇則將廢熱吹至上方。

▲ 如此一來就能強化顯示卡的散熱能力。

▲ 根據官方提供的數據，在350W的功耗條件下，GeForce RTX 3090的溫度比TITAN RTX低攝氏20度，噪音也少了20dBA（加權濾波分貝值）。

架構翻新，AI效能再提升

GeForce RTX 30系列想當然爾一定會比GeForce RTX 20系列更加龐大，具有更多運算單元。若以GeForce RTX 3080與GeForce RTX 2080 Super進行比較，可以發現它的SM從48增加到68組，並將資料寬度增加2倍，每個時脈周期可以進行128次FMA（乘積累加）運算，CUDA核心數更是從3072飆漲至8704個，成長幅度相當可觀。

在光線追蹤的運算部分，GeForce RTX 30也具有專屬的硬體運算單元，透過硬體反覆迭代的方式取代多次軟體運算，藉以提升運算效率。此外它也導入時域多邊型偵測單元，能偵測在極小時間差之內的多個畫格中，多邊型是否被光源碰觸，來達成加速同時開啟光線追蹤與動態模糊時的效能表現，最大甚至可提升8倍光線追蹤運算效能。

在負擔AI方面運算的Tensor Core部分，雖然每個SM中Tensor Core的數量降為一半，但受益於能進行的FMA運算加倍與SM總數提升等因素，整體運算效能還是有所成長。

在顯示記憶體方面，因為考量成本因素，GeForce RTX 30系列並未採用HBM記憶體，而是在GeForce RTX 3070搭載GDDR6，並在GeForce RTX 3080、RTX 3090搭載GDDR6X記憶體。後者能在傳輸過程中使用4種不同電壓狀態，進而在單一時脈周期傳輸更多資料。

▲ GeForce RTX 3080的各項規格與GeForce RTX 2080 Super有著顯著提升。

▲ 其中SM的資料寬度增加2倍，每個時脈周期可以進行128次FMA運算。

▲ GeForce RTX 30系列的硬體光線追蹤運算也最佳化整體繪圖效能。

▲ 新導入的時域多邊型偵測單元（圖中的Interpolate tri position）能夠在光線追蹤搭配動態模糊時發揮效用。

▲ 在不使用動態模糊的情況下，光線追蹤僅需計算光源是否「碰觸」到單一指定多邊型，而在啟用動態模糊後，就需額外加入時間因素，計算是否會碰觸到多個多邊型。

▲ 從另一張圖可以清楚看到，右方為啟用動態模糊後，系統需計算在3個在極小時間差之內的同一多邊型是否被光源碰觸，運算量提升不少。

▲ 全新導入的動態模糊光線追蹤硬體加速設計能夠提升8倍光線追蹤運算效能。

▲ 在Tensor Core運算單元部分，雖然每個SM分配的數量降為一半，但因每個單元的運算能力加倍，以及SM總數提升，因此運算效能還是有所成長。圖中的效能測試為BERT語音辨識。

▲ 在整體效能提升的幫助下，GeForce RTX 30系列的電力效率較GeForce RTX 20系列高出1.9倍。

▲ GeForce RTX 3080、RTX 3090搭載GDDR6X記憶體，因為具有4種不同的電壓狀態，因此在單一時脈周期中傳輸更多資料。

▲ 為了避免雜訊干擾，系統會透過MTA編碼（Max Transition Avoidance Coding）限制電壓狀態一口氣跳4階。從圖中可以看到電壓從0跳到1或2，但不會跳到3，以確保訊號純淨。（註：圖中的黑色的「眼」越清晰，代表訊號越純淨）

▲ 受益於新架構所帶來的幫助，GeForce RTX 3080在多款不同的遊戲與程式中有著比GeForce RTX 2080 Super高出1.5至2倍不等的效能表現。

DLSS助攻8K遊戲

DLSS 1.0隨GeForce RTX 20系列顯示卡於2018年9月發表，在經過實驗與改善後，NVIDIA於2020年4月推出DLSS 2.0，帶來更理想的升頻效果，在對效能影響有限的情況下，提升遊戲畫面表現。

以NVIDIA官方的說法，DLSS能帶來比原生解析度更好的視覺體驗，舉例來說，繪製1080p畫面透過DLSS升頻至4K的效果，會比直接繪製4K好。對於這種說法，我們不妨將它歸類為「行銷話術」即可。

身為BFGPU定位的GeForce RTX 3090，當然也是劍指8K遊戲，然而隨著遊戲畫質不斷提升，對顯示卡效能的需求也越來越高，若還要開啟光線追蹤等特效的話，DLSS就是必要的妥協。DLSS 2.0支援將2K至4K解析度的畫面升頻至8K，如此一來便能在維持一定畫質的前提下提升FPS，讓玩家也能享受流暢的遊戲體驗。

解決了遊戲解析度的問題之後，就是影像輸出問題。目前已經發表的GeForce RTX 3070、RTX 3080、RTX 3090等顯示卡都搭載HDMI 2.1端子，只需透過1條纜線就能傳輸8K、60FPS、HDR訊號，能夠省下以往需要多條纜線的麻煩，也能避免因為將畫面切割傳輸的不同步問題。在影片播放部分，上述3張顯示卡也都支援8K、60FPS的AV1格式硬體解碼，在AV1逐步建立生態系統並日漸普及的現在格外實用。

▲ 以《德軍總部：血氣方剛》為例，純以渲染器繪製單張畫面需要51ms，若加入RT Core與Tensor Core則可雖短至12ms，。