讓瑪麗蓮夢露學你說話，只需一張靜態圖和一個影片的開源專案

想讓名人學著你說話，怎麼辦？很簡單，只要一張名人的照片，配上你說話的影片，一分鐘就能搞定。這是來自義大利特倫托大學的一項研究：利用一個一階運動模型（First Order Motion Model），靜態圖也能動起來，換臉也不成問題。

想讓名人學著你說話，怎麼辦？

很簡單，只要一張名人的照片，配上你說話的影片，一分鐘就能搞定。

來看下效果：

無論你是擠眉弄眼，還是搖頭晃腦，照片裡的名人們都能跟你神同步！

這就是來自義大利特倫托大學的一項研究：

利用一個一階運動模型（First Order Motion Model），靜態圖也能動起來，換臉也不成問題。

當然，這麼有意思的項目，已經開源了！

一個川普在說話，一群史塔克也有話說

其實，這項研究早在數月前便已發表。

當時用的輸入影片是川普，靜態照片用的是一組《冰與火之歌》史塔克家族及劇中其他人物圖片。

效果是這樣的：

可以看到，無論川普是眨眼、晃頭，劇中的人物做到了神同步。

就連那張標誌性的O型嘴，也「模仿」的惟妙惟肖。

而時隔幾個月，這項技術又在Reddit火爆了起來。

一個可能的原因是，這次輸入的影片來自流行的短片平台，也就是說我們自己錄一段影片也能用。

加上效果的逼真、有趣，或許用不了多長時間，影片內容平台可能就會推出這個功能了吧。

當然，這個模型的魔力不止於此。

輸入一個模特換pose的影片，再配上多張靜態服飾照片，就能批量輸出動態展示服裝的影片了。

換臉，也是小菜一碟。

不過，也要溫馨提醒一句：慎用靜態照片，不然出來的效果可能就不太像「陽間的東西」了……

在訓練階段，研究人員採用了大量的影片序列集合，包含相同類別的對象。模型透過結合影片中的單影格，和學習到的潛在運動表示，來訓練重構影片。

在測試階段，研究人員將模型應用於由源圖像和驅動影片的每一個影格組成的對，並執行源對象的圖像動畫。

模型的框架就如下圖所示：

運動估計模組的目的，是預測一個密集的運動場。研究人員假設存在一個抽象的參考框架，並且獨立估計兩個變換，分別是「從參考到源」和「從參考到驅動」。這樣就能夠獨立處理源影格和驅動影格。

研究人員認為這個步驟是必要的，因為在測試時，模型會接收從不同影片中採樣的源圖像和驅動影格對，它們在視覺上可能非常不同。

在第一步中，研究人員從稀疏軌跡集近似這兩種變換，通過使用以自監督方式學習的關鍵點來獲得。利用局部仿射變換對每個關鍵點附近的運動進行建模。

在第二步中，密集運動網路結合局部近似得到密集運動場。除此之外，這個網路還輸出遮擋的mask，指示哪些圖像的驅動部分可以透過源圖像的扭曲（warping）來重建，哪些部分應該被繪製（根據上下文推斷）。

在第三步中，生成模組按照驅動影片中，提供的源對象移動的圖像進行算繪。此處，研究人員使用一個產生器網路，根據密集的運動對源圖像進行扭曲，並對源圖像中被遮擋的圖像部分進行著色。

最後，這個模型已經在GitHub上開源，快去試試吧~