Google的文生圖外掛模型 MediaPipe Diffusion 有多強?可在行動端使用,速度提升20倍

Google的文生圖外掛模型 MediaPipe Diffusion 有多強?可在行動端使用,速度提升20倍

Google發佈低成本可控文生圖外掛模型 MediaPipe Diffusion,可以讓行動端提速 20 + 倍,在 v100 上運行提速高達 100 倍。

近年來,擴散模型在文字到圖像生成方面取得了巨大的成功,實現了更高圖像生成品質,提高了推理性能,也可以激發擴展創作靈感。

不過僅憑文字來控制圖像的生成往往得不到想要的結果,比如具體的人物姿勢、面部表情等很難用文字指定。

背景知識

基於擴散模型的圖像生成過程可以認為是一個迭代去噪過程。

從噪聲圖像開始,在每個步驟中,擴散模型會逐漸對圖像進行降噪以生成符合目標概念的圖像,將文字提示作為條件可以大大提升圖像生成的效果。

對於文字到圖像生成,文字嵌入通過交叉注意層連接到圖像生成模型上,不過仍然有部分資訊難以通過文字提示來描述,比如物體的位置和姿態等。

為解決這個問題,研究人員提出引入額外的模型新增到擴散模型中,在條件圖像中注入控制資訊。

常用的控制文生圖方法包括:

1. 即插即用(Plug-and-Play)用到去噪擴散隱式模型(DDIM)inversion 方法,從輸入圖像開始反轉生成過程來匯出初始噪聲輸入,然後採用擴散模型(Stable Diffusion1.5 的情況下需要 8.6 億參數)對來自輸入圖像的條件進行編碼。

即插即用從複製的擴散中提取具有自注意力的空間特徵,並將其注入到文字轉圖像的擴散過程中。

2. ControlNet 會建立擴散模型編碼器的一個可訓練副本,通過零初始化參數後的摺積層連接,將傳遞到解碼器層的條件資訊進行編碼。

3. T2I Adapter 是一個較小的網路(7700 萬參數),在可控生成中可以實現類似的效果,只需要將條件圖像作為輸入,其輸出在所有擴散迭代中共享。

不過 T2I 介面卡模型並不是為可攜式移動裝置設計的。

MediaPipe Diffusion 外掛

為了使條件生成更高效、可定製且可擴展,研究人員將 MediaPipe 擴散外掛設計為一個單獨的網路:

1. 可插入(Plugable):可以很容易地與預訓練基礎模型進行連接;

2. 從零開始訓練(Trained from scratch):不使用來自基礎模型的預訓練權重;

3. 可移植性(Portable):可以在移動裝置上運行基礎模型,並且推理成本相比原模型來說可以忽略不計。

即插即用、ControlNet、T2I 介面卡和 MediaPipe 擴散外掛的對比,* 具體數字會根據選用模型不同而發生變化

簡單來說,MediaPipe 擴散外掛就是一個用於文字到圖像生成的,可在可攜式裝置上運行的模型,從條件圖像中提取多尺度特徵,並新增到相應層次擴散模型的編碼器中;當連接到文生圖擴散模型時,外掛模型可以向圖像生成提供額外的條件訊號。

外掛網路是一個輕量級的模型,只有 600 萬參數,使用 MobileNetv2 中的深度摺積和反向瓶頸(inverted bottleneck)在移動裝置上實現快速推理。

Google的文生圖外掛模型 MediaPipe Diffusion 有多強?可在行動端使用,速度提升20倍

MediaPipe 擴散模型外掛是一個單獨的網路,輸出可以插入到預訓練的文字到圖像生成模型中,提取的特徵應用於擴散模型的相關下採樣層(藍色)。

與 ControlNet 不同,研究人員在所有擴散迭代中注入相同的控制功能,所以對於圖像生成過程只需要運行一次外掛,節省了計算量。

 

示例

在這項工作中,研究人員開發了基於擴散的文字到圖像生成模型與 MediaPipe face landmark,MediaPipe holistic landmark,深度圖和 Canny 邊緣的外掛。

對於每個任務,從超大規模的圖像-文字資料集中選擇約 10 萬張圖像,並使用相應的 MediaPipe 解決方案計算控制訊號,使用 PaLI 最佳化後的描述來對外掛進行訓練。

Face Landmark

MediaPipe Face Landmarker 任務計算人臉的 478 個 landmark(具有注意力)。

研究人員使用 MediaPipe 中的 drawing utils 來渲染人臉,包括臉部輪廓、嘴巴、眼睛、眉毛和虹膜,並使用不同的顏色進行表示。

下面這個例子展現了通過調節面網格和提示隨機生成的樣本;作為對比,ControlNet 和 Plugin 都可以在給定條件下控制文字到圖像的生成。

Google的文生圖外掛模型 MediaPipe Diffusion 有多強?可在行動端使用,速度提升20倍

用於文字到圖像生成的 Face-landmark 外掛,與 ControlNet 進行比較。

Holistic Landmark

MediaPipe Holistic Landmark 任務包括身體姿勢、手和面部網格的 landmark,可以通過調節整體特徵來生成各種風格化的圖像。

Google的文生圖外掛模型 MediaPipe Diffusion 有多強?可在行動端使用,速度提升20倍

用於文字到圖像生成的 Holistic landmark 外掛。

深度

Google的文生圖外掛模型 MediaPipe Diffusion 有多強?可在行動端使用,速度提升20倍

深度外掛的文字到圖像生成。

Canny Edge

Google的文生圖外掛模型 MediaPipe Diffusion 有多強?可在行動端使用,速度提升20倍

用於生成文字到圖像的 Canny-edge 外掛。

評估

研究人員對 face landmark 外掛進行定量評估以證明該模型的性能,評估資料集包含 5000 張人類圖像,使用的評估指標包括 Fréchet 起始距離(FID)和 CLIP 分數。

基礎模型使用預訓練的文字到圖像擴散模型 Stable Diffusion v1.5

Google的文生圖外掛模型 MediaPipe Diffusion 有多強?可在行動端使用,速度提升20倍

FID、CLIP 和推理時間的定量比較

從實驗結果中的 FID 和 CLIP 分數來看,ControlNet 和 MediaPipe 擴散外掛生成的樣本品質比基礎模型好得多。

與 ControlNet 不同,外掛模型只需要為每個生成的圖像運行一次,不需要在每個去噪步中都運行,所以推理時間只增加了 2.6%

研究人員在伺服器機器(使用 Nvidia V100 GPU)和移動端裝置(Galaxy S23)上測量了三種模型的性能:在伺服器上,使用 50 個擴散步驟運行所有三個模型;在移動端上,使用 MediaPipe 圖像生成應用程式運行 20 個擴散步驟。

與 ControlNet 相比,MediaPipe 外掛在保持樣本品質的同時,在推理效率方面表現出明顯的優勢。

Google的文生圖外掛模型 MediaPipe Diffusion 有多強?可在行動端使用,速度提升20倍

外掛在不同移動的裝置上的推理時間(ms)

總結

在這項工作中,研究人員提出了 MediaPipe,一個可在行動端使用的、有條件的文字到圖像生成外掛,將從條件圖像中提取的特徵注入擴散模型,從而控製圖像的生成過程。

可攜式外掛可以連接到在伺服器或裝置上運行的預訓練的擴散模型,通過在裝置上完全運行文字到圖像生成和外掛,可以更靈活地應用生成式 AI

參考資料:

https://ai.googleblog.com/2023/06/on-device-diffusion-plugins-for.html

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則