開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準：會畫手、能寫字，再也不用寫長 prompt 了

自從 Midjourney 發佈 v5 之後，在生成圖像的人物真實程度、手指細節等方面都有了顯著改善，並且在 prompt 理解的精準性、審美多樣性和語言理解方面也都取得了進步。

相比之下，Stable Diffusion 雖然免費、開源，但每次都要寫一大長串的 prompt，想生成高品質的圖像全靠多次抽卡。

先前 Stability AI 預告過正在研發的 Stable Diffusion XL 已經開放公眾測試，目前可以在 Clipdrop 平台免費試用。

試用連結：https://clipdrop.co/stable-diffusion

延伸閱讀：Stable Diffusion AI算圖使用手冊（1-1）：這是什麼黑魔術？

Stability AI 的創始人兼首席執行長 Emad Mostaque 表示，目前該模型仍然處於訓練階段，等參數穩定後將會開源；SD-XL 在「握手」等圖像細節方面會表現更好，幾乎完全可控。

Stable Diffusion XL 也並不是最終發佈版的名字，並且也並非是 v3，因為 SD-XL 的架構和 SD-v2 系列的模型架構非常相似。

Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.

簡約的家庭健身房，橡膠地板，壁掛式電視，舉重凳，藥球，啞鈴，瑜伽墊，高科技裝置，高細節，組織和效率

下面幾張 SD-XL 官方發佈的例圖，可以看出圖像的品質已經非常不錯了。

不過有時候 less 並不代表 more，有網友認為 SD-XL 為了擺脫「糟糕的品味」，設定了太多的規則，定製化空間越來越小，不符合大多數人的喜好。目前 v1.5 的 Stable Diffusion 仍然是社區內最流行的基座模型。

網友表示希望新版 SD 能夠和 SD 2.1 版本的嵌入、hypernetworkds 和 Lora 模型保持相容，再從零開始重訓的話就太難受了。

也有網友認為，SD-XL 的表現和 civit 網站上網友分享的模型差不多，新模型的效果也並不是特別驚豔，也就是平均水平。

延伸閱讀：光用手機12秒內就可以生成一張Stable Diffusion圖像！Google提出擴散模型推理加速

SD-XL：開源版 Midjourney

關於 Stable Diffusion XL 模型的具體資訊，官方並沒有透露太多，目前只知道是一個與 v2 模型架構相似、但規模和參數量更大的模型。

SD-v2.1 包括 9 億參數，SD-XL 大約有 23 億參數，Emad 表示正式版可能會額外發佈一個更小的蒸餾版本。

SD-XL 相比之前版本的改進如下：

使用較短的描述性 prompt 即可生成高品質圖像
可以生成更貼合 prompt 的圖像
圖像中的人體結構更合理
與 v2.1 和 v1.5 版本 (程度較輕) 相比，SD-XL 生成的圖片更符合福斯審美
負面提示詞（negative prompt）是可選項
生成的肖像圖更逼真
圖像中的文字更清晰

需要注意的是，SD-XL 可能與之前版本的外掛不相容。

清晰可讀的文字

在 v1 系列和 v2.1 版本的 Stable Diffusion 模型中，並不具備在圖片中生成可讀文字的能力。

雖然 SD-XL 生成的文字資訊並不總是精準，但確實得到了巨大的提升。

Photo of a woman sitting in a restaurant holding a menu that says “Menu”

一個女人坐在餐館里拿著寫著「Menu」的菜單

Photo of a man holding a sign that says “Stable Diffusion”

一個男人舉著寫著「Stable Diffusion」的牌子

a young female holding a sign that says “Stable Diffusion”，highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light

一個年輕的女性舉著一個牌子，上面寫著「Stable Diffusion」，頭髮高亮，坐在餐廳外面，棕色的眼睛，穿著裙子，側燈。

更好的人體結構

Stable Diffusion 在生成人體解剖結構方面一直存在諸多問題，多幾條腿、少個胳膊實在是太常見不過的問題，通常需要使用 inpaint 功能進一步對圖像細節進行修正；或者是使用 ControlNet 的 Open Pose 功能從參考圖像中複製人體的姿態。

比如說 SD-v1.5 生成瑜伽的圖像，經常會出現扭曲的人體。

Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting

一個女人的照片在瑜伽服裝，三角形的姿勢，海灘在晚上，邊緣照明

SD-XL 雖然生成的圖像並不完美，不過在人體姿態方面已經有了顯著的進步。

更有美感（more aesthetic）

比如同樣以屋子為主題，SD-XL 可以生成更對稱、視覺效果更好的照片。

SD-XL 在肖像照片上也有顯著改進。

photo shot of a woman

一個女人的照片

更貼合 prompt 的圖像

SD-XL 可以更好地理解輸入的 prompt，並生成更精確的圖像。

比如以 duotone（雙色）為例，SD-v1.5 隻會生成黑白圖像，而 SD-XL 則可以生成具有多種顏色的雙色調圖像。

與 v1 模型相比，理解提示符的能力有所提高。

duotone portrait of a woman

一個女人的雙色調肖像

因為 SD-XL 同屬 v2 系列模型，所以文字模型尺寸更大，可以比 v1 模型更好地理解提示詞。

比如下面的例子中，v1.5 模型始終無法理解圖像中的兩個主題（機器人和人類），但 SD-XL 模型可以生成正常的圖像（雖然機器人還是不夠 big）。

big robot friend sitting next to a human, ghost in the shell style, anime wallpaper

大機器人朋友坐在人類旁邊攻殼機動隊風格的動漫壁紙

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一個年輕人，頭髮染得很亮，棕色眼睛，穿著白襯衫和藍色牛仔褲，站在海灘上，背景是一座火山

藝術風格

在藝術風格上，SD-XL 並沒有顯著改進，和之前的版本各有千秋。

比如兩個模型以不同的角度生成了 Edward Hopper 風格的圖像。

New York city by Edward Hopper

Edward Hopper 繪製的紐約

Leonid Afmov 的風格中，SD-v1.5 更準確，SD-XL 缺少了不同顏色的筆刷（unmistakable colorful board brushstrokes）。

New York city by Leonid Afremov

Leonid Afemov 繪製的紐約

William-Adolphe Bouguereau 風格中，V1.5 和 SDXL 都可以生成一些類似的內容，其中 SD-XL 更接近 Bouguereau 創作的經典學院派繪畫，並且面部細節更多。

Portrait of beautiful woman by William-Adolphe Bouguereau

William-Adolphe Bouguereau 繪製的美女肖像

風格轉變問題

在新增一些無關緊要的關鍵字後，模型的風格可能會突然轉變。

比如先生成一張照片風格的圖像。

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一個年輕人，頭髮染得很亮，棕色眼睛，穿著白襯衫和藍色牛仔褲，站在海灘上，背景是一座火山

再新增一條黃色的圍巾後，圖像風格就變成了卡通風格。

a young man, highlights in hair, brown eyes, wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background

一個年輕人，頭髮染得很亮，棕色的眼睛，圍著黃色的圍巾，穿著白襯衫和藍色牛仔褲，站在一個火山為背景的海灘上

問題的故障可能源於預覽問題，在正式發佈後該問題不知能否得到解決。

參考資料：

https://clipdrop.co/stable-diffusion

延伸閱讀：Stable Diffusion AI算圖使用手冊（3-1）：開始算圖吧！

FB 建議貼文