《俠盜獵車手》走進現實中！AI逼真還原遊戲街景，還能「腦補」細節 | T客邦

《俠盜獵車手》走進現實中！AI逼真還原遊戲街景，還能「腦補」細節

ADVERTISEMENT

GTA 也叫「俠盜獵車手」，是R星旗下一款超高人氣動作冒險類游戲，目前已經發售至第五版。

這款以犯罪為主題的經典遊戲極具真實感，它的背景是以美國洛杉磯和南部加州為原型，三位角色也有著和人類相同的世界觀，玩家可以任意選擇或者切換角色，每個角色都有獨立的人格和故事。

更有意思的是，這款遊戲在劇情和動作設計堪稱一部好萊塢大片，疾馳的賽車、激烈的槍戰、精彩的追逐，讓不少玩家欲罷不能。

如果一定要為這款遊戲提點改進意見，可能就是提升場景的真實感，畢竟，哪個玩家不想在現實世界上演「玩命關頭」呢？

沒想到，英特爾AI實驗室真的把這個奢望變成了現實。最近，該實驗室研究團隊提出了一種增強合成圖像的新方法，該方法把GTA中的城市街景變成了真實世界的場景。

▲ 再來看一張與GTA V場景的對比圖 ▲ 畫面中的汽車、天空、路面變得更加平滑，更有光澤感。 ▲ 光禿禿的草地也變成了更濃密，顏色更鮮亮的草叢。 ▲ 還自動「腦補」出了右側的建築物這種增強圖像方法並非1:1還原了遊戲中的原始街景，而是在此基礎上算繪和產生了一個全新的城市樣貌。研究人員介紹，其AI演算法使用了來自德國真實街景的Cityscapes資料集，通過對該資料集的訓練，AI「腦補」出了不存在的汽車、街道和建築物等使其場景更具真實感。

▲完整的影片介紹

實現方法

這項研究成果出自Intel AI 實驗室發表的一篇名為「Enhancing photorealism enhancement」的研究論文。這篇論文對圖像增強的實際工作原理提供了深入、徹底的理解。

用AI算繪遊戲人物和場景的概念並不新鮮，但現有方法大多會產生嚴重的偽影，不穩定，或者算繪速度太慢。

在本篇論文中，研究人員提出了一種基於卷積網路的增強合成圖像真實感的新方法。具體來說，卷積網路利用傳統算繪管道產生中間表示，透過新的對抗目標訓練，在多個感知層次上提供強大的監督。在訓練過程中對圖像塊進行採樣，以消除圖像偽影。最後經過對深層網路模組的多種體系結構的改進。實驗結果表明，與最近的圖像到圖像轉換方法和各種其他基線相比，該方法在穩定性和真實性方面取得了實質性進展。

以上為具體方法的概述圖：

為了提高輸出圖像的真實感，研究人員在該網路中加入了額外輸入。具體來說，他們從圖像管道中提取了中間算繪緩衝區（intermediate rendering buffers，G-buffers）。G-buffer經過編碼器網路處理後，能夠提供圖像場景中關於景深、形狀、光照、透明度、材質等特徵訊息。

這些特徵將作為圖像增強網的輸入，用來調製圖像特徵。

圖像增強網路採用HRNetV2架構，它在各種密集預測任務上表現出了很強的性能。HRNet能夠以不同解析度運行的多個分支處理圖像。同時以較高的解析度呈現更精細的圖像結構。在篇工作中，研究人員對其進行瞭如下調整：

第一，用regular卷積代替初始的strided 卷積，使網路在全解析度下運行，並保留更精細的細節。

第二，在每個分支中的residual blocks 中，透過算繪感知非規範化（rendering-aware denormalization ,RAD）模組來替換批處理規範化層。

Residual blocks由卷積層（核大小為3）、光譜歸一化（spectral normalization）和ReLUs組成。它在Conv 1和Conv P中執行通道寬度的改變或縮小。如果通道寬度和解析度不變，則省略Conv P的推理環節。

RAD模組和G-buffer編碼器中均有使用Residual blocks。RAD模組透過幾何圖形、材料、光照等來自G-buffer的語義訊息來調製圖像特徵張量。這些圖像特徵透過group normalization進行標準化，然後再通過元素權重（γ, β）進行縮放和移位。每個RAD模組中有三個Residual blocks來變換G-buffer特徵，可以更好地適應權重變化。

在訓練方面，圖像增強網路有兩個目標。

第一，用LPIPS loss評估輸入和輸出圖像之間的差異。
第二，用鑑別器評估增強圖像的真實性。

鑑別器用來區分經過網路增強的圖像和來自資料集的真實圖像。它由健壯的語義分割網路、感知特徵提取網路和多個鑑別器網路組成。研究人員採用MSeg進行語義分割，VGG16進行感知特徵提取。這兩個網路都是預訓練的，在訓練圖像增強網路時沒有進行優化。然後將分割網路應用於來自目標資料集的真實圖像和未修改的算繪圖像（這為真實圖像和合成圖像提供了兼容的語義訊息）。將VGG特徵提取網路應用於真實圖像和增強圖像。

在被訓練的過程中，鑑別器使用一種特定的採樣策略來選擇真實和合成的圖像塊，以顯著減少常見的偽影。

實驗評估

論文中，研究人員進行了一組對照實驗，具體評估了採樣策略、G-buffers、使用G-buffers的架構以及對抗性損失的不同設置等指標。結果如下圖：

在採樣策略方面，通過對uniform採樣與matching patch pairs採樣在不同尺寸（196、256、400）下的對比，表明較小的patch減少了原始和目標圖像數據之間的不匹配，較大的patch偽影更強，如下圖第2列和第3列。

較小的patch採樣可顯著降低sKVD。在matching patches採樣中，中高層次的sKVD有所降低了，而最低層次上的sKVD略有增加。這可以解釋為uniform採樣patch的優勢是可以被更高水平的分佈不匹配所抵消。

在引入G-buffers策略上對比了三種方法：第一，簡單地將它們附加到算繪圖像（Concat）中。它使用標準的HRNet架構進行圖像增強（沒有RAD模組或RAD塊）。第二，將RAD模組替換為SPADE模組。第三，使用本篇論文的RAD模組。

結果表明，簡單的concatenation比SPADE模有更好的結果。SPADE模組在整個資料集中很不穩定，對比真實圖像有明顯的偽影和顏色偏差。如下圖中間列：

在鑑別器評估方面，比較了PatchGAN，它使用四個鑑別器網路，每個鑑別器網路以不同的比例攝取圖像。實驗表明，PatchGAN鑑別器的輸出結果明顯缺乏真實感。如下圖，推理層和自適應反向傳播都發揮了作用，但不在同一感知水準。如果移除自適應反向傳播會降低最高層次上sKVD，移除推理層會增加高層次的sKVD。當考慮到所有層次時，推理和自適應反向傳播相結合是有益的。推理層的效果如下圖：

總的來說，本篇論文的方法顯著增強了算繪圖像的真實感。針對真實資料集中具有清晰對應關係的物體和場景，它能夠產生高品質的增強，這些增強在幾何和語義上與輸入圖像一致，同時與相應資料集的樣式相匹配。在Geforce RTX 3090 GPU上，該方法在當前未優化的實現中推理需要半秒鐘。由於用作輸入的G-buffer是在GPU上產生的，因此可以更深入地集成到遊戲引擎中，提高效率和真實感水平。

此外，該方法產生的圖像在結構上與輸入場景一致，這有助於使用可用於合成數據的基本事實註釋。為了支持未來的研究，研究人員將發布GTAV和VIPER資料集的增強圖像。

資料來源：

#電腦王 #ai/大數據

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則