史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

我們都習慣把修圖稱為P圖、或是PS圖,主要指的當然是透過Photoshop來進行各種神奇的應用。不過,讓我們來看看以下這段Demo,你會發現,修圖從來沒有這麼簡單過,相比之下Photoshop像是上個世紀的老古董。

原來,現在P圖真的只需要輕輕點兩下,AI就能徹底理解你的想法!

小到豎起狗狗的耳朵:

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

大到讓整隻狗蹲下來,甚至讓馬岔開腿跑步,都只需要設定一個起始點和結束點,外加拽一拽就能搞定:

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

不止是動物的調整,連像汽車這樣的非生物,也能一鍵拉升底座,甚至升級成加長豪華車:

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

這還只是AI修圖的基本。

要是想對圖像實現更精準的控制,只需畫個圈給指定區域“塗白”,就能讓狗狗轉個頭看向你:

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

甚至是讓獅子張大嘴,連「牙齒」這種素材圖片都不需要、分什麼圖層?那都是上個世紀的事情了!你只要讓他嘴巴打開,AI自動就能給它安上:

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

 

如此有手就能做的修圖神器,來自一個MIT、Google、馬普所等機構聯手打造的DragGAN新模型,論文已入選SIGGRAPH 2023。

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

沒錯,在擴散模型獨領風騷的時代,竟然還能有人把GAN玩出新花樣!

目前這個專案在GitHub上已經有5k+ Star,熱度還在不斷上漲中(儘管一行程式碼還沒發)。

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

所以,DragGAN模型究竟長啥樣?它又如何實現上述神一般的操作?

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

DragGAN:拽一拽關鍵點,就能修改圖像細節

這個名叫DragGAN的模型,本質上是為各種GAN開發的一種互動式圖像操作方法。

論文以StyleGAN2架構為基礎,實現了點點滑鼠、拽一拽關鍵點就能P圖的效果。

具體而言,給定StyleGAN2生成的一張圖像,使用者只需要設定幾個控制點(紅點)和目標點(藍點),以及圈出將要移動的區域(比如狗轉頭,就圈狗頭)。

然後模型就將迭代執行運動監督和點跟蹤這兩個步驟,其中運動監督會驅動紅色的控制點向藍色的目標點移動,點跟蹤則用於更新控制點來跟蹤圖像中的被修改對象。

這個過程一直持續到控制點到達它們對應的目標點。不錯,運動監督和點跟蹤就是我們今天要講的重點,它是DragGAN模型中最主要的兩個元件。

先說運動監督。在此之前,業界還沒有太多關於如何監督GAN生成圖像的點運動的研究。在這項研究中,作者提出了一種不依賴於任何額外神經網路的運動監督損失(loss)。

其關鍵思想是,生成器的中間特徵具有很強的鑑別能力,因此一個簡單的損失就足以監督運動。

所以,DragGAN的運動監督是通過生成器特徵圖上的偏移補丁損失(shifted patch loss)來實現的。

如下圖所示,要移動控制點p到目標點t,就要監督p點周圍的一小塊patch(紅圈)向前移動的一小步(藍圈)。

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

再看點跟蹤。

先前的運動監督會產生一個新的latent code、一個新特徵圖和新圖像。由於運動監督步驟不容易提供控制點的精確新位置,因此我們的目標是更新每個手把點p使其跟蹤上對象上的對應點。

此前,點跟蹤通常通過光流估計模型或粒子視訊方法實現。但同樣,這些額外的模型可能會嚴重影響效率,並且在GAN模型中存在偽影的情況下可能使模型遭受累積誤差。

因此,作者提供了一種新方法,該方法通過最近鄰檢索在相同的特徵空間上進行點跟蹤。

而這主要是因為GAN模型的判別特徵可以很好地捕捉到密集對應關係。

基於這以上兩大元件,DragGAN就能通過精確控制像素的位置,來操縱不同類別的對象完成姿勢、形狀、佈局等方面的變形。

作者表示,由於這些變形都是在GAN學習的圖像流形上進行的,它遵從底層的目標結構,因此面對一些複雜的任務(比如有遮擋),DragGAN也能產生逼真的輸出。

單張3090幾秒鐘出圖

所以,要實現幾秒鐘精準控圖的效果,是否需要巨大的算力?

no~no~no~大部分情況下,每一步拖曳修圖,單張RTX 3090 GPU在數秒鐘內就能搞定。具體到生成圖像的效果上,實際評估(均方誤差MSE、感知損失LPIPS)也超越了一系列類似的AI修圖模型,包括RAFT和PIPs等等:

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

值得一提的是,DragGAN的潛力還不止於此。

一方面,如果增加關鍵點的數量,還能實現更加精細的AI修圖效果,用在人臉這類對修圖要求比較嚴格的照片上,也是完全沒問題:

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

另一方面,不止開頭展示的人物和動物,放在汽車、細胞、風景和天氣等不同類型的圖像上,DragGAN也都能精修搞定。

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

除了不同的照片類型,從站到坐、從直立到跑步、從跨站到並腿站立這種姿勢變動較大的圖像,也能通過DragGAN實現:

不過,也有網友指出了DragGAN目前面臨的一些問題。

例如,由於它是基於StyleGAN2生成的圖像進行P圖的,而後者訓練成本很高,因此距離真正商業落地可能還有一段距離。

除此之外,在論文中提到的“單卡幾秒鐘修圖”的效果,主要還是基於256×256解析度圖像:

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

至於模型是否能擴展到256×256以外圖像,生成的效果又是如何,都還是未知數。

有網友表示至少高解析度圖像從生成時間來看,肯定還要更長。

史上最狂修圖工具!DragGAN讓你拽一拽關鍵點就能完成P圖,PS相比之下根本古董

實際上手的效果究竟如何,我們可以等6月論文程式碼開源後,一測見真章。

是時候給自己的首頁照片修圖了。

論文網址:https://vcai.mpi-inf.mpg.de/projects/DragGAN/data/paper.pdf

專案地址(程式碼6月開源):https://github.com/XingangPan/DragGAN

參考連結:

[1]https://weibo.com/1727858283/N1iKl4zVG

[2]https://twitter.com/_akhaliq/status/1659424744490377217

[3]https://twitter.com/mrgreen/status/1659482594516377601

本文轉載自量子位

 

 

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則