只要3D+時間!Meta AI團隊提出首個文字產生3D動態場景的方法,無需任何3D或4D資料

只要3D+時間!Meta AI團隊提出首個文字產生3D動態場景的方法,無需任何3D或4D資料

ADVERTISEMENT

2022年,生成模型(Generative models)取得了巨大的進展。不僅可以從自然語言提示中生成逼真的 2D 圖像,也在合成影片和 3D 形狀生成方面有著不俗的表現。 

雖然目前的生成模型可以生成靜態的 3D 物件,但合成動態場景更加複雜。而且,由於目前缺少現成的 4D 模型集合(無論是有或沒有文字注釋),相比於 2D 圖像和產生影片,由文字到 4D 的生成更加困難。 

那麼,如何基於簡單的文字直接產生複雜的 3D 動態場景呢? 

一種可能的方法是,從預先訓練好的 2D 影片產生器開始,從產生的影片中提取 4D 重建。然而,從影片中重建可變形物體的形狀是一項非常具有挑戰性的工作。 

近日,來自 Meta 的研究團隊結合影片和 3D 生成模型的優點,提出了一個新的文字到 4D(3D+時間)生成系統——MAV3D(Make-A-Video3D)。 

據介紹,該方法使用 4D 動態神經輻射場(NeRF),透過查詢基於文字到影片(T2V)的擴散模型,對場景外觀、密度和運動一致性進行了最佳化。 

同時,由特定文字生成的動態影片可以從任何攝影機位置和角度觀看,並且可以合成到任何 3D 環境中。

由MAV3D產生的樣本。行表示時間的變化,列表示視點的變化。最後一列顯示其相鄰列的深度圖像。

 

研究團隊表示,MAV3D 是第一個基於文字描述產生 3D 動態場景的方法,可以為電玩遊戲、視覺效果或 AR/VR 產生動畫 3D 資產。相關研究論文以「Text-To-4D Dynamic Scene Generation」為題,已發表在預印本網站 arXiv 上。 

據論文描述,MAV3D 的實現不需要任何 3D 或 4D 資料,而且 T2V 模型也只是在文字-圖像對和未標記的影片資料上訓練的。 

以往研究證明,僅僅使用影片生成器最佳化動態 NeRF 不會產生令人滿意的結果。為了實現由文字到 4D 的目標,必須克服以下 3 個挑戰: 

  1. 找到一個端到端、高效且可學習的動態 3D 場景的有效表示; 
  2. 有一個監督來源,因為沒有可供學習的大規模(文字,4D)資料集。 
  3. 需要在空間和時間上縮放輸出的解析度,因為 4D 輸出域是記憶體密集型的和運算密集型的。

那麼,由簡單的文字描述到複雜的 3D 動態場景生成,具體是如何實現的呢? 

首先,研究團隊僅充分利用了三個純空間平面(綠色),算繪單個圖像,並使用 T2I 模型運算 SDS 損失。 

然後,他們添加了額外的三個平面(橙色,初始化為零以實現平滑過渡),算繪完整的影片,並使用 T2V 模型運算 SDS-T 損失。 

最後,即超解析度微調(SRFT)階段,他們額外算繪了高解析度影片,並將其作為輸入傳遞給超解析度元件。

MAV3D 的實現路徑

 

另外,MAV3D 也可以完成由圖像到 4D 應用的轉換。給定一個輸入圖像,透過提取它的 CLIP embedding,並以此來約束(condition)MAV3D。

圖像到4D應用。

 

然而,這一方法也存在一定的局限性。例如,在即時應用中,將動態 NeRF 轉換為不相交網格序列的效率很低。研究團隊認為,如果直接預測頂點的軌跡,或許可以改進。 

此外,利用超解析度資訊已經提高了展示的品質,但對於更高細節的紋理還需要進一步改進。 

最後,表示的品質取決於 T2V 模型從各種視圖生成影片的能力。雖然使用依賴於視圖的提示有助於緩解多面問題,但進一步控制影片產生器將是有幫助的。 

資料來源: 

 

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則