如何從數張照片中重建出逼真的 3D 場景?這是近年電腦視覺領域的熱門研究方向。
然而,傳統的重建方法往往會遇到一個硬傷:一旦相機沒有拍到某個角度,該區域就會變成一片空白或出現嚴重的破圖。
為了解決這個痛點,NVIDIA Research 開發出全新的 3D 場景生成 AI 模型——ArtiFixer。這款模型是以開源影片生成 AI「Wan 2.1」為基礎進行開發,擁有高達 169 億個參數。它的最大特色在於,能夠藉由生成技術「憑空補齊」照片中未包含的死角,進而建構出高品質、無死角的 3D 場景。

結合 Wan 2.1 影片生成技術,解決傳統 3D 高斯潑濺的「破圖」痛點
近年來,利用多張照片來生成 3D 場景的「3D 高斯潑濺(3D Gaussian Splatting)」技術取得了相當大的進展。然而,傳統的 3D 高斯潑濺系統依然存在兩大棘手問題:
1. 場景一致性難以維持:在不同視角切換時,畫面容易出現閃爍或扭曲。
2. 未拍攝區域的成像崩壞:一旦遇到照片沒拍到的死角,系統就無法正確渲染。
ArtiFixer 正是為了解決這些問題而誕生。NVIDIA 開發團隊以擁有約 169 億參數的 Wan 2.1 影片生成 AI 模型為基礎,透過「生成並填補未拍攝區域」的機制,成功大幅提升了 3D 場景的生成品質與完整度。

NVIDIA 官方也在社群平台 X展示了 ArtiFixer 的強大實力。即使鏡頭從未捕捉到某些幾何結構,ArtiFixer 也能自動預測並修補這些空白處。

雙階段訓練法:從區域填補到百影格自迴歸蒸餾
為了讓 ArtiFixer 具備如此驚人的預測與生成能力,開發團隊設計了兩階段的訓練流程:
- 第一階段:訓練 AI 模型具備「預測並補齊未拍攝畫面」的能力,讓它能合理推測出相機死角處的幾何形狀與材質。
- 第二階段:進行「自迴歸模型蒸餾(Distillation)」,讓模型能從單一影格中,穩定且連續地生成數百個影格,確保視角移動時的流暢度與一致性。

滿足不同需求的三種 ArtiFixer 模型版本
為了適應不同的運算需求與應用場景,NVIDIA 這次推出了三種不同架構的版本:
- ArtiFixer:核心版本,主要透過自迴歸模型(Autoregressive Model)來生成新的視角畫面。
- ArtiFixer3D:將 ArtiFixer 的生成結果進一步「蒸餾」並轉換成 3D 結構(3D Representation),特點是畫面的一致性極高,但邊緣細節有時會稍微模糊。
- ArtiFixer3D+:在 ArtiFixer3D 的結果之上,作為後處理再次套用自迴歸模型。如此一來,既能保留極高的一致性,又能呈現清晰銳利的畫面細節。
根據 NVIDIA 提供的對比測試,將傳統的「3DGUT」與 ArtiFixer 的不同版本進行比較,可以看出 ArtiFixer 系列在細節還原上更為出色。


而在「3DGUT」、「GenFusion」、「GSFixer」與「ArtiFixer3D+」的綜合對比中,ArtiFixer3D+ 生成的場景在立體感與精細度上都明顯優於其他同類技術,即使是雜物極多的複雜室內環境,也能完美還原出極高品質的 3D 空間。
相關連結
- ArtiFixer 專案官網:NVIDIA SIL Projects - ArtiFixer
- Hugging Face 模型庫:nvidia/ArtiFixer
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!