只需要2張圖,AI便可產生整個完整運動的過程

只需要2張圖,AI便可產生整個完整運動的過程

ADVERTISEMENT

先給一張側臉(關鍵影格1):

只需要2張圖,AI便可產生整個完整運動的過程再給一張正臉(關鍵影格2):

只需要2張圖,AI便可產生整個完整運動的過程

然後僅僅根據這兩張圖片,AI便能產生整個運動過程:

只需要2張圖,AI便可產生整個完整運動的過程

而且不只是簡單的那種,連在運動過程中的眨眼動作也處理的很到位。

效果一出,便在Reddit上引發了不少熱議:

只需要2張圖,AI便可產生整個完整運動的過程

僅需2個關鍵影格,如何完成完整運動?

  • 不需要冗長的訓練過程。
  • 不需要大量的訓練資料集。

這是論文作者對本次工作提出的兩大亮點。

具體而言,這項工作就是基於關鍵影格將影片風格化。

先輸入一個影片序列I ,它由N個影格組成,每一影格都有一個掩膜Mi來劃分感興趣的區域。

與此前方法不同的是,這種風格遷移是以隨機順序進行的,不需要等待順序靠前的影格先完成風格化,也不需要對來自不同關鍵影格的風格化內容進行顯式合併。

只需要2張圖,AI便可產生整個完整運動的過程

也就是說,該方法實際上是一種翻譯過濾器,可以快速從幾個異構的手繪示例Sk 中學習風格,並將其「翻譯」給影片序列I 中的任何一影格。

這個圖像轉換框架基於U-net實現。並且,研究人員採用基於圖像塊(patch-based)的訓練方式和抑制影片閃爍的解決方案,解決了少樣本訓練和時間一致性的問題。

而為了避免過擬合,研究人員採用了基於圖像塊的訓練策略。

從原始關鍵影格(Ik)中隨機抽取一組圖像塊(a),在網路中產生它們的風格化對應塊(b)。

然後,計算這些風格化對應塊(b)相對於從風格化關鍵影格(Sk)中取樣對應圖像塊的損失,並對誤差進行反向傳播。

這樣的訓練方案不限於任何特定的損失函數。本項研究中,採用的是L1損失、對抗性損失和VGG損失的組合。

只需要2張圖,AI便可產生整個完整運動的過程另一個問題便是超參數的最佳化。

這是因為不當的超參數可能會導致推理品質低下。

只需要2張圖,AI便可產生整個完整運動的過程

研究人員使用網格搜索法,對超參數的4D空間進行採樣:Wp——訓練圖像塊的大小;Nb——一個batch中塊的數量;α——學習率;Nr——ResNet塊的數量。

對於每一個超參數設置:

  1. 執行給定時間訓練;
  2. 對不可見影格進行推理;
  3. 計算推理出的影格(O4)和真實值(GT4)之間的損失。

而目標就是將這個損失最小化。

團隊介紹

這項研究一作為Ondřej Texler,布拉格捷克理工大學電腦圖形與互動系的博士生。

只需要2張圖,AI便可產生整個完整運動的過程

而除了此次的工作之外,先前他和團隊也曾做過許多有意思的工作。

例如一邊畫著手繪畫,一邊讓它動起來。

只需要2張圖,AI便可產生整個完整運動的過程

再例如給一張卡通圖片,便可讓影片中的你頂著這張圖「聲情並茂」。

只需要2張圖,AI便可產生整個完整運動的過程

想了解更多有趣的研究,可點下方連結。

參考鏈接:

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則