OpenAI 發表的生成圖片模型Consistency Models開源了!比Diffusion更快更強

OpenAI 發表的生成圖片模型Consistency Models開源了!比Diffusion更快更強

圖像生成領域,看來又要變天了。

就在剛剛,OpenAI 開源了比擴散模型更快、性能更好的Consistency (一致性)模型:無需對抗訓練,就能生成高品質圖片!

 

OpenAI 發表的生成圖片模型Consistency Models開源了!比Diffusion更快更強

雖說論文本身在 3 月份就已低調發佈,但當時大夥兒普遍認為它只是個 OpenAI 的研究,並不會真正將細節公開。

OpenAI 發表的生成圖片模型Consistency Models開源了!比Diffusion更快更強

沒想到這次直接來了個開源。有網友立刻上手實測了一波效果,發現只需要 3.5 秒左右就能生成 64 張左右 256×256 的圖像:

遊戲結束!

OpenAI 發表的生成圖片模型Consistency Models開源了!比Diffusion更快更強

這是這位網友生成的圖像效果,看起來還不錯:

OpenAI 發表的生成圖片模型Consistency Models開源了!比Diffusion更快更強

還有網友調侃:這次 OpenAI 終於 Open 了!

OpenAI 發表的生成圖片模型Consistency Models開源了!比Diffusion更快更強

 

一起來看看這次 OpenAI 開源了一項怎樣的研究。

開源了一個怎樣的重磅研究?

作為一個圖像生成 AI,一致性模型(Consistency Model)最大的特點在於快又好。

相比擴散模型,它主要有兩大優勢:

其一,無需對抗訓練(adversarial training),就能直接生成高品質的圖像樣本。

其二,相比擴散模型可能需要幾百甚至上千次迭代,一致性模型只需要一兩步就能搞定多種圖像任務 ——

包括上色、去噪、超分等,都可以在幾步之內搞定,而不需要對這些任務進行明確訓練。(當然,如果進行少樣本學習的話,生成效果也會更好)

OpenAI 發表的生成圖片模型Consistency Models開源了!比Diffusion更快更強

所以一致性模型究竟是如何實現這種效果的?

從原理來看,一致性模型的誕生與 ODE(常微分方程)式生成擴散模型有關。

圖中可見,ODE 會先一步步將圖片資料轉換成噪聲,隨後再進行一個逆向求解,從噪聲中學習生成圖像。

而就在這個過程中,作者們試圖將 ODE 軌跡上的任何點(如 Xt、Xt 和 Xr)對應到它的原點(如 X0)進行生成建模。

隨後,這個對應的模型被命名為一致性模型,因為它們的輸出都是同一軌跡上的同一點:

 OpenAI 發表的生成圖片模型Consistency Models開源了!比Diffusion更快更強

基於這種思路,一致性模型不需要再經過漫長的迭代,才能生成一個相對品質比較高的圖像,而是能做到一步生成。

下圖是一致性模型(CD)和擴散模型(PD)在圖像生成指標 FID 上的對比。

其中,PD 是去年史丹佛和Google大腦提出的一種最新擴散模型方法漸進式蒸餾(progressive distillation)的簡稱,CD(consistency distillation)則是一致性蒸餾方法。

可以看出,幾乎在所有資料集上,一致性模型的圖像生成效果都要比擴散模型更好,唯一的例外是 256×256 的房間資料集上:

OpenAI 發表的生成圖片模型Consistency Models開源了!比Diffusion更快更強

除此之外,作者們也將擴散模型、一致性模型和 GAN 等模型在其他各種資料集上進行了對比:

OpenAI 發表的生成圖片模型Consistency Models開源了!比Diffusion更快更強

不過也有網友提到,這次開放原始碼的 AI 一致性模型,能生成的圖像還是太小:

很難過,這次開放原始碼的版本生成的圖像還是太小了,要是能給出生成更大圖像的開源版本,肯定會非常讓人興奮。

OpenAI 發表的生成圖片模型Consistency Models開源了!比Diffusion更快更強

也有網友猜測,可能只是 OpenAI 還沒訓練出來。不過可能訓練出來了我們也不一定能搞到程式碼。

不過對於這項工作的意義,TechCrunch 表示:

你若是有一堆 GPU,那用擴散模型在一兩分鐘內迭代 1500 多次,生成圖片的效果當然是極好的。

但如果你想在手機上或者聊天對話的時候即時生成圖片,那顯然擴散模型不是最好的選擇。

一致性模型是 OpenAI 下一個重要動作。

期待 OpenAI 會開源一波解析度更高的圖像生成 AI!

 

專案:https://github.com/openai/consistency_models

論文地址:https://arxiv.org/abs/2303.01469

本文轉載自:量子位 (ID:QbitAI)

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則