首個3D人像影像生成模型來了!僅需1張2D照片,眨眼、口型都能改變

首個3D人像影像生成模型來了!僅需1張2D照片,眨眼、口型都能改變

ADVERTISEMENT

 

只需要1張普通照片,就能合成全角度動態3D動態影像。 

首個3D人像影像生成模型來了!僅需1張2D照片,眨眼、口型都能改變

 

眨個眼、動動嘴,都是小case~ 

首個3D人像影像生成模型來了!僅需1張2D照片,眨眼、口型都能改變

 

最近AIGC爆火,產生3D人像模型也沒閑著。像是StyleNerf、StyleSDF、EG3D等方法相繼出世。

但到目前為止,這種生成模型都還停留在單格人像上。 

最近,來自新加坡國立大學(NUS)和字節跳動的研究人員,在靜態3D模型的基礎上,提出了首個3D人像影像生成模型:PV3D(3D model for Portrait Video generation)。  

首個3D人像影像生成模型來了!僅需1張2D照片,眨眼、口型都能改變

 

PV3D的訓練繼承了3D GAN模型的優點,即無需動態的3D資料監督,只需要在足夠數量的單視角2D影像資料上進行訓練。 

該生成框架將人像和動作進行解耦,基於影像的時間戳記產生各自的3D表徵,讓影像可以從任意角度進行算繪。 

長影像也能挑戰: 

首個3D人像影像生成模型來了!僅需1張2D照片,眨眼、口型都能改變

 

產生3D動態人像

PV3D分別從獨立的高斯分布中採樣隨機雜訊來表徵外表和運動,外表雜訊產生影像的主體內容,控制人像的ID以及人臉的各個部分,運動雜訊配合影像的影格時間戳記控制當前影格的動作。 

為了確保產生內容的真實性以及外表和運動的解耦,PV3D訓練兩個獨立的判別器分別判定外表和運動的合理性。 

該方法可以生成隨機的人像影像以及相應的高品質的動態幾何表面,讓影像可以從任意角度進行算繪。 

同時,該方法可以支援下游的應用任務,比如靜態人像驅動,人像影像的重建以及對人像動作的修改,所有的結果均可以保持高的多視角一致性。 

首個3D人像影像生成模型來了!僅需1張2D照片,眨眼、口型都能改變

主流的3D GAN模型都脫胎於StyleGAN結構。 

因此這些模型均會將採樣得到的雜訊先映射到一個高維度的中間隱式編碼(intermidate latent code),大量現有的研究表明這種結構的隱式空間包含了豐富的語義資訊,可以用來控制產生的圖像內容。 

因此,最直接的拓展方式就是使用預訓練的單格3D GAN模型,透過學習一個額外的在隱式空間進行推理的時序模型對生成的內容進行合理的改變,進而生成3D人像影像。 

然而,該方法的缺點是圖片生成器和時序推理模型在不同的階段分別被優化,導致最終的影像很難保持時間上的一致性。 

另一種主流的影像產生模型使用稀疏訓練的方式,在訓練階段直接隨機生成影像中的少量影格,使用少數影格的時間戳記編碼運動資訊,進一步的改變中間隱式編碼進而一次性最佳化完整的產生器。 

然而這種做法將全部的時序資訊都包含在隱式空間中,導致最終的模型多樣性較差、產生品質較低。 

與上述方法不同,PV3D在原有GAN模型的基礎上在特定尺度的產生模組中插入運動資訊的編碼層,這些編碼層獨立地將控制運動的雜訊映射為隱式編碼,使用modulated convolution操縱外表特徵,再將操縱後的特徵與原始特徵融合,進而提高產生影像的時序一致性和運動多樣性。

此外,本研究還研究了以下問題: 

如何有效地在影像產生任務中利用算繪的視角先驗資訊 

針對產生3D影像,如何設計合理的外表和運動判別器

首個3D人像影像生成模型來了!僅需1張2D照片,眨眼、口型都能改變

 

PV3D模型基於最新的靜態3D GAN模型EG3D進行開發,EG3D採用高效的3D表徵Tri-plane做到產生圖像。 

在訓練階段,PV3D採用稀疏訓練的策略,對於一個影像採樣兩個雜訊、兩個時間戳記以及各自時刻對應的相機視角。 

相對應的,模型產生兩格對應的3D表徵進行算繪得到粗糙的結果。隨後使用超解析度模組將圖片上採樣。 

PV3D設計了兩個獨立的判別器監督網路的學習,其中影像判別器會編碼兩影格的相機視角以及時間間隔去判斷生成結果的合理性。 

實驗部分

評價指標 

研究人員使用FVD來評估生成影像的品質。此外,為了評估多視角的一致性以及3D幾何結構的品質,研究人員將3D GAN工作中常用的評價指標(產生的人像的ID一致性、Chamfer距離、多視角的重投影誤差)拓展到影像任務中。 

與基線的對比 

研究人員首先採用同期的3D影像生成工作3DVidGen作為基線。此外,研究人員還基於SOTA的單幀3D GAN (EG3D和StyleNerf) 和2D影像生成模型構建了三個基線模型。在3個公開資料集(VoxCeleb, CelebV-HQ, TalkingHead-1KH)上的實驗結果表明,PV3D在生成影像的多樣性,3D幾何的品質,以及多視角一致性上均超越基線模型。

首個3D人像影像生成模型來了!僅需1張2D照片,眨眼、口型都能改變

消融實驗

研究人員對PV3D的各部分設計進行了消融實驗,例如:運動資訊的編碼和注入的位置,運動資訊的插入方式,相機視角的採樣策略,以及影像判別器的設計。 

首個3D人像影像生成模型來了!僅需1張2D照片,眨眼、口型都能改變

 

團隊介紹

目前,該論文已被ICLR 2023接收。 

作者團隊由新加坡國立大學Show Lab和字節跳動組成。

首個3D人像影像生成模型來了!僅需1張2D照片,眨眼、口型都能改變

 

論文連結: 

專案主頁:

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則