NVIDIA Ada Lovelace架構解析(二):實測DLSS 3讓遊戲效能再次翻倍

NVIDIA Ada Lovelace架構解析(二):實測DLSS 3讓遊戲效能再次翻倍

ADVERTISEMENT

在過去4年的時間中,NVIDIA應用深度學習研究團隊一直在研發結合光流預測與DLSS的畫格生成技術,透過生成準確的合成畫格,以提升畫面更新頻率並提供更流暢的遊戲體驗。

將畫面運算量縮減到12.5%

RTX 40系列的Ada Lovelace架構導入全新的DLSS 3升頻技術,它除了延續先前的Super Resolution畫面放大功能(繪製解析度較低的遊戲畫面再透過AI放大以節省運算資源),還加入了全新的Frame Generation畫格生成功能,透過在原有的畫格與畫格之間,補上透過AI產生的合成畫格,達到提升遊戲FPS效能的效果。

Frame Generation的概念與影片的「補幀」類似,都是以既有畫格為原料,計算前後的差異,並預測中間新產生的合成畫格應該是什麼樣子。為了要達到自然而流暢的視覺體驗,預測的準確度就相當重要。

DLSS 3提升準確度的方式之一就是導入經常應用於電腦視覺領域的光流預測(Optical Flow Estimation)技術,它主要的功能為測量連續畫格之間像素運動的方向和幅度,簡單地說就是測量並預估在畫面上的物體移動的行為,概念與影片編碼的動態補償(Motion Compensation)相當類似,但對準確度與一致性的要求更高。

雖然在NVIDIA RTX 30系列的Ampere架構中就導入了可以加速光流預測運算的光流加速器(Optical Flow Accelerator,OFA),但其效能還不足以滿足DLSS應用的需求,RTX 40系列的Ada Lovelace架構將OFA的運算效能提高2倍達300TOPS,以達到實用需求。

在理想狀態下,Super Resolution僅需繪製顯示解析度的1/4,即可透過AI運算將其放大到填滿螢幕,而Frame Generation則是可以「憑空產生」與實際繪製畫格相同數量的合成畫格。舉例來說,如果想要輸出3840 x 2160(4K)解析度、FPS 60幀的遊戲畫面,系統只需繪製1920 x 1080(Full HD)解析度、FPS 30幀的畫面,其餘的部分則透過AI產生。

因此結合Super Resolution與Frame Generation等2項功能的DLSS 3,就可以將遊戲繪圖的運算量縮減至原本的1/8,能夠在對畫質衝擊有限的代價下,極大幅提升效能表現。

需要注意的是,由於Super Resolution會降低系統的實際繪製解析度,不但能夠提升繪製畫面的FPS,也因為完成繪製的費時更短,所以能夠降低遊戲的操作延遲。但是Frame Generation所產生的畫面單純透過合成方式產品,並非接獲玩家操作指令後,經由處理器、顯示卡繪製,因此僅能提升遊戲的視覺流暢度,對操作延遲並無幫助。

不過Frame Generation倒是有個神奇的效果,對於效能瓶頸在處理器(CPU Bond)的遊戲來說,還是能發揮提升FPS的功效。以《微軟模擬飛行》為例,它受限於物理模擬運算的需求,以及需要處理廣大繪製距離內的各種建築物、植披等資料,所以處理器來不及產生更多繪圖需求(Draw Call),需要使用效能更高的處理器才能化解頻頸並提升遊戲FPS表現,而升級效能更強的顯示卡,或是使用Super Resolution都無法提升FPS。但Frame Generation就沒有這個問題,它還是能為FPS帶來正面幫助。

過去DLSS 2以Super Resolution功能為主,透過降低繪製解析度並透過AI升頻的方式,達到提升遊戲FPS表現的效果。注意圖中的動態向量(Motion Vector)是由遊戲引擎提供。

DLSS 3加入的Frame Generation功能則透過光流加速器進行光流預測,分析畫格內各像素的移動趨勢,並產生精準預測的合成畫格。

光流預測的工作原理可以理解為將遊戲畫面切割為許多紅色方框,並分析每個方框的移動情況,如此一來就能得到右圖的動態資訊。

由遊戲引擎產生的動態向量不一定能正確反映畫面的移動趨勢。舉例來說,左上小圖為動態向量的資訊,人物的影子(紅色陰影)也被標上往後移動的趨勢,會造成影子抖動的畫面錯誤。而左下小圖的光流預測則標示影子(綠色陰影)沒有移動,修正了畫面錯誤的問題。

DLSS 3可以透過Super Resolution功能將繪製解析度降低為1/4,並透過Frame Generation功能產生額外的合成畫格,因此可以將畫面運算量壓縮到1/8。圖中灰色部分為實際繪製區域,綠色則是由AI產生。

各項DLSS功能的相容性列表。Frame Generation只相容於RTX 40系列顯示卡,而Super Resolution則相容於RTX 20/30/40,能夠縮短操作延遲的Reflex則相容於所有GeForce 900系列之後的顯示卡。

▲NVIDIA應用深度學習研究部門副總裁Bryan Catanza透過影片說明DLSS 3的技術概念。

DLSS 3效能實測,效能提高可達2.5倍

在DLSS 3的效能實測部分,筆者準備了《電馭叛客2077》以及《微軟模擬飛行》等遊戲作為測試項目,來分析DLSS 3所帶來的效能增益。

《電馭叛客2077》作為當代光線追蹤技術的代表性遊戲,當然相當吃重顯示卡的效能表現,就算是領先目前所有顯示卡的GeForce RTX 4090,在不使用DLSS的情況下,也只能在4K、最高畫質、光線追蹤的測試交出FPS為40幀左右的成績。《微軟模擬飛行》則是如前文所述,因為處理器效能瓶頸而造成遊戲FPS效能難以提升。

在測試方式部分,《電馭叛客2077》設定為最高畫質範本並開啟光線追蹤,分別關閉DLSS與開啟DLSS Frame Generation、DLSS Super Resolution(Auto畫質),並在1080p(1920 x 1080)、2K(2560 x 1440)、4K(3840 x 2160)等3種解析度下執行2輪遊戲內建效能測試模式並取平均。

《微軟模擬飛行》同樣設定為最高畫質範本,但遊戲並不支援光線追蹤,直接挑戰4K解析度,並進行關閉DLSS與開啟DLSS Frame Generation、DLSS Super Resolution的差異測試。遊戲遊戲沒有內建的測試模式,所以筆者選擇從松山機場起飛,並往桃園機場的方向飛過淡水河。

由於遊戲內建的FPS計算工具無法測量Frame Generation所帶來的效能提升,因此筆者使用NVIDIA FrameView測量FPS效能表現。另一方面,筆者也透過影片呈現開、關DLSS的畫質差異,但因為如此高畫質與高更新頻率的影片不方便用外部擷取設備錄影,所以筆者參考NVIDIA官方的測試指南,使用ShadowPlay錄製影片, 選擇H.264並將錄影FPS設定為120Hz,流量設定為104000kbps,並在測試效能之外多跑1輪流程進行錄影,以免影響遊戲效能表現。

測試平台:
處理器:AMD Ryzen 7 7700X
散熱器:MSI MEG Coreliquid S360
主機板:ASRock X670E Taichi(UEFI版號:1.08.AS02 Beta)
記憶體:G.Skill Trident Z5 Neo 16GBx2(@DDR5-6000)
顯示卡:NVIDIA GeForce RTX 4090 Founder Edition
儲存裝置:Seagate FireCuda 520 SSD 1TB、Solidigm P41 Plus 1TB(儲存《微軟模擬飛行》)
電源供應器:Seasonic Prime Titanium 850W
軟體環境:Windows 11專業版21H2(Build 22000.978),GeForce Game Ready 521.90

測試結果請參考下列圖表與影片。

在《電馭叛客2077》4K解析度的情況下,DLSS 3能將遊戲的平均FPS表現由41.51幀提升到144.81,差距高達248.89%。

▲在關閉DLSS的情況下,遊戲會真的繪製4K解析度的圖像,但問題是FPS只有約40幀,會造成卡頓感。

▲開啟DLSS之後,平均FPS可達144幀,讀者們覺得畫質表現還可以接受嗎?

在《微軟模擬飛行》部分,由於遊戲FPS的效能受到處理器瓶頸限制,所以僅有Frame Generation可以發揮效用,它能讓FPS表現翻倍,效能增益達到96.28%。

▲在關閉DLSS 3的情況下,遊戲受限於處理器效能瓶頸,《微軟模擬飛行》的平均FPS只有96.1幀。

▲受益於全新的Frame Generation功能,《微軟模擬飛行》的平均FPS可以提升至188.63幀。

DLSS 3遊戲陸續登場

根據NVIDIA發表的消息,現在已有超過35款遊戲、引擎及應用程式宣布支援DLSS 3,比較值得關注的,當然是當代光線遊戲追蹤之王《電馭叛客2077》,它將會在近期推出Overdrive Mode超高畫質模式更新,帶來更加逼真的遊戲畫面與光影表現。

另外《傳送門》也會推出免費的Portal With RTX DLC,如同先前《雷神之鎚 2》RTX 版一樣,讓玩家可以在舊遊戲加上最先進的光線追蹤技術,大幅提高遊戲畫面表現。而《NVIDIA Racer RTX》則是由NVIDIA開發的「秀肌肉」遊戲,充分展現RTX繪圖技術的多項能力,並向世人證明Omniverse進行3D開發的可行性。

DLSS 3支援項目一覽

  1. 瘟疫傳說:安魂曲
  2. 原子之心
  3. 黑神話:悟空
  4. 光明記憶:無限
  5. 車諾比人
  6. 戰意
  7. 電馭叛客 2077
  8. Dakar Rally
  9. 火星孤征
  10. 毀滅全人類 2 重製版
  11. 消逝的光芒 2 人與仁之戰
  12. F1 22
  13. 暗影火炬城
  14. Frostbite Engine(寒霜引擎)
  15. 刺客任務 3
  16. 霍格華茲的傳承
  17. 翼星求生
  18. 侏羅紀世界:進化 2
  19. 逆水寒 Justice
  20. 生死輪迴
  21. Marauders
  22. 微軟模擬飛行
  23. 三更抓鬼
  24. 騎馬與砍殺 2:領主
  25. 永劫無間
  26. NVIDIA Omniverse
  27. NVIDIA Racer RTX
  28. PERISH
  29. Portal With RTX
  30. Ripout
  31. 戰鎚 40K:黑潮
  32. 浩劫殺陣 2:車諾比之心
  33. Scathe
  34. 仙劍奇俠傳七
  35. 重生邊緣
  36. 魔戒:咕嚕
  37. 巫師 3:狂獵
  38. THRONE AND LIBERTY
  39. 幻塔
  40. Unity
  41. Unreal Engine 4 & 5

▲《電馭叛客2077》Overdrive Mode超高畫質模式會將每個像素的光線運算量提高到635組,並可在DLSS 3的協助下確保遊戲流暢運作。

▲《傳送門》近期將推出免費的Portal With RTX DLC,可以讓玩家在經典遊戲中享受光線追蹤技術帶來的視覺震撼。

▲《NVIDIA Racer RTX》是NVIDIA利用Omniverse開發的宣傳導向遊戲,充分展現RTX繪圖技術的多項能力。

目前上方3款影片所提到的遊戲與更新尚未公布實際推出日期,有興趣的讀者不妨關注NVIDIA官方網站所釋出的資訊,我們也預計於推出時進行介紹。

系列文章:
NVIDIA GeForce RTX 4090創始版開箱搶先看,新世代卡王即將降臨!
NVIDIA GeForce RTX 4090效能實測,新世代卡王暢玩4K光線追蹤
NVIDIA Ada Lovelace架構解析(一):光線追蹤效能大爆發
NVIDIA Ada Lovelace架構解析(二):實測DLSS 3讓遊戲效能再次翻倍(本文)

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則