Google的文生圖外掛模型 MediaPipe Diffusion 有多強？可在行動端使用，速度提升20倍

Google發佈低成本可控文生圖外掛模型 MediaPipe Diffusion，可以讓行動端提速 20 + 倍，在 v100 上運行提速高達 100 倍。

近年來，擴散模型在文字到圖像生成方面取得了巨大的成功，實現了更高圖像生成品質，提高了推理性能，也可以激發擴展創作靈感。

不過僅憑文字來控制圖像的生成往往得不到想要的結果，比如具體的人物姿勢、面部表情等很難用文字指定。

背景知識

基於擴散模型的圖像生成過程可以認為是一個迭代去噪過程。

從噪聲圖像開始，在每個步驟中，擴散模型會逐漸對圖像進行降噪以生成符合目標概念的圖像，將文字提示作為條件可以大大提升圖像生成的效果。

對於文字到圖像生成，文字嵌入通過交叉注意層連接到圖像生成模型上，不過仍然有部分資訊難以通過文字提示來描述，比如物體的位置和姿態等。

為解決這個問題，研究人員提出引入額外的模型新增到擴散模型中，在條件圖像中注入控制資訊。

常用的控制文生圖方法包括：

1. 即插即用（Plug-and-Play）用到去噪擴散隱式模型（DDIM）inversion 方法，從輸入圖像開始反轉生成過程來匯出初始噪聲輸入，然後採用擴散模型（Stable Diffusion1.5 的情況下需要 8.6 億參數）對來自輸入圖像的條件進行編碼。

即插即用從複製的擴散中提取具有自注意力的空間特徵，並將其注入到文字轉圖像的擴散過程中。

2. ControlNet 會建立擴散模型編碼器的一個可訓練副本，通過零初始化參數後的摺積層連接，將傳遞到解碼器層的條件資訊進行編碼。

3. T2I Adapter 是一個較小的網路（7700 萬參數），在可控生成中可以實現類似的效果，只需要將條件圖像作為輸入，其輸出在所有擴散迭代中共享。

不過 T2I 介面卡模型並不是為可攜式移動裝置設計的。

MediaPipe Diffusion 外掛

為了使條件生成更高效、可定製且可擴展，研究人員將 MediaPipe 擴散外掛設計為一個單獨的網路：

1. 可插入（Plugable）：可以很容易地與預訓練基礎模型進行連接；

2. 從零開始訓練（Trained from scratch）：不使用來自基礎模型的預訓練權重；

3. 可移植性（Portable）：可以在移動裝置上運行基礎模型，並且推理成本相比原模型來說可以忽略不計。

即插即用、ControlNet、T2I 介面卡和 MediaPipe 擴散外掛的對比，* 具體數字會根據選用模型不同而發生變化

簡單來說，MediaPipe 擴散外掛就是一個用於文字到圖像生成的，可在可攜式裝置上運行的模型，從條件圖像中提取多尺度特徵，並新增到相應層次擴散模型的編碼器中；當連接到文生圖擴散模型時，外掛模型可以向圖像生成提供額外的條件訊號。

外掛網路是一個輕量級的模型，只有 600 萬參數，使用 MobileNetv2 中的深度摺積和反向瓶頸（inverted bottleneck）在移動裝置上實現快速推理。

MediaPipe 擴散模型外掛是一個單獨的網路，輸出可以插入到預訓練的文字到圖像生成模型中，提取的特徵應用於擴散模型的相關下採樣層（藍色）。

與 ControlNet 不同，研究人員在所有擴散迭代中注入相同的控制功能，所以對於圖像生成過程只需要運行一次外掛，節省了計算量。

示例

在這項工作中，研究人員開發了基於擴散的文字到圖像生成模型與 MediaPipe face landmark，MediaPipe holistic landmark，深度圖和 Canny 邊緣的外掛。

對於每個任務，從超大規模的圖像-文字資料集中選擇約 10 萬張圖像，並使用相應的 MediaPipe 解決方案計算控制訊號，使用 PaLI 最佳化後的描述來對外掛進行訓練。

Face Landmark

MediaPipe Face Landmarker 任務計算人臉的 478 個 landmark（具有注意力）。

研究人員使用 MediaPipe 中的 drawing utils 來渲染人臉，包括臉部輪廓、嘴巴、眼睛、眉毛和虹膜，並使用不同的顏色進行表示。

下面這個例子展現了通過調節面網格和提示隨機生成的樣本；作為對比，ControlNet 和 Plugin 都可以在給定條件下控制文字到圖像的生成。

用於文字到圖像生成的 Face-landmark 外掛，與 ControlNet 進行比較。

Holistic Landmark

MediaPipe Holistic Landmark 任務包括身體姿勢、手和面部網格的 landmark，可以通過調節整體特徵來生成各種風格化的圖像。

用於文字到圖像生成的 Holistic landmark 外掛。

深度

深度外掛的文字到圖像生成。

Canny Edge

用於生成文字到圖像的 Canny-edge 外掛。

評估

研究人員對 face landmark 外掛進行定量評估以證明該模型的性能，評估資料集包含 5000 張人類圖像，使用的評估指標包括 Fréchet 起始距離（FID）和 CLIP 分數。

基礎模型使用預訓練的文字到圖像擴散模型 Stable Diffusion v1.5

FID、CLIP 和推理時間的定量比較

從實驗結果中的 FID 和 CLIP 分數來看，ControlNet 和 MediaPipe 擴散外掛生成的樣本品質比基礎模型好得多。

與 ControlNet 不同，外掛模型只需要為每個生成的圖像運行一次，不需要在每個去噪步中都運行，所以推理時間只增加了 2.6%

研究人員在伺服器機器（使用 Nvidia V100 GPU）和移動端裝置（Galaxy S23）上測量了三種模型的性能：在伺服器上，使用 50 個擴散步驟運行所有三個模型；在移動端上，使用 MediaPipe 圖像生成應用程式運行 20 個擴散步驟。

與 ControlNet 相比，MediaPipe 外掛在保持樣本品質的同時，在推理效率方面表現出明顯的優勢。

外掛在不同移動的裝置上的推理時間（ms）

總結

在這項工作中，研究人員提出了 MediaPipe，一個可在行動端使用的、有條件的文字到圖像生成外掛，將從條件圖像中提取的特徵注入擴散模型，從而控製圖像的生成過程。

可攜式外掛可以連接到在伺服器或裝置上運行的預訓練的擴散模型，通過在裝置上完全運行文字到圖像生成和外掛，可以更靈活地應用生成式 AI

參考資料：

https://ai.googleblog.com/2023/06/on-device-diffusion-plugins-for.html