除了做梗圖還有什麼功用？AI圖片產生器Dall-E Mini入門教學

最近在Twitter和Reddit上出現了很多由九宮格圖片組成的網路迷因，像是「戴著墨西哥帽的倉鼠哥吉拉襲擊東京的行車記錄器畫面」，或是「在脫衣舞廳的最後的晚餐」等內含瘋狂想法的梗圖。

▲ 戴著墨西哥帽的倉鼠哥吉拉襲擊東京的行車記錄器畫面

▲ 在脫衣舞廳的最後的晚餐

▲ 電子顯微鏡下的米老鼠

▲ 達斯·維達外型的Nespresso膠囊咖啡機

▲ 查抄哈比人之家的特種部隊

但這些主題包羅萬象的圖片究竟是哪位靈感取之不盡的藝術家製作的呢？事實上，這些五花八門的圖片全都來自於AI圖片產生器——Dall-E Mini。

DALL·E是什麼？

DALL·E是一種利用AI人工智慧生成圖像的圖片產生器，並在命名上參考了超現實藝術家薩爾瓦多·達利（Salvador Dalí）和皮克斯（Pixar）動畫人物瓦力（WALL·E）。

2021年 1月，非營利的人工智慧研究組織OpenAI發布「DALL-E」，此人工智慧程式擁有120億參數的GPT-3自迴歸語言模型，可理解用自然語言(natural language)表達的文字描述，並生成圖片。而在2022年4月，OpenAI更是發表了「DALL-E 2」。相較於初代的DALL-E，DALL-E 2除了再度強調「能從文本描述中產生原創且逼真的圖像藝術」，也展現了更為出色的製圖和作畫功力。不僅生成的圖片更細緻，甚至還能改編畫作的風格。

▲ DALL-E 1、DALL-E 2比較丨截圖自https://openai.com/dall-e-2/

OpenAI目前已將DALL-E 2開放給上千名開發者試用，但並未對外公開開放使用，只有少部份擁有權限者才能使用或進行相關研究。於是，Boris Dayma等多位工程師在Github結合「CompVis」圖像資料庫開發了「Dall-E Mini」，免費釋出給大眾使用。

Dall-E Mini是以開源模型 DELL-E為基礎加工，如同其他的機器學習模型，DALL-E從網路上瀏覽了成千上萬張的圖片資料庫，才學會如何按照文字敘述來繪製圖片。不過，Dall-E Mini作為簡易版「DALL-E」，所產生的圖片細緻度和品質較差，但合成出來的圖像仍大致可以辨識。

如何使用Dall-E Mini？

使用Dall-E Mini並沒有設備上的要求，任何人都能從瀏覽器上免費使用DALL-E Mini，只要在產生器網頁上，以英文輸入圖片描述詞，並點擊「Run」，AI就會自動幫你生成圖片。最後，點擊下方的「Screenshot」即可儲存一張含關鍵詞輸入框的截圖。

前往Dall-E Mini：https://huggingface.co/spaces/dalle-mini/dalle-mini

雖然網路上有許多利用Dall-E Mini製作的梗圖，Dall-E Mini也成為拿來突破次元壁的利器之一。但除此之外，Dall-E Mini還能畫出什麼？

Dall-E Mini製圖情況簡介

雖然根據使用的文本不同，每個人的Dall-E Mini體驗歷程會有些許差異，但下列兩點基本可概括Dall-E Mini的製圖情況：

生成時間

Dall-E Mini生成圖片的時間與描述詞的複雜程度基本成正比，如果使用了較長的文本，就需要多等一陣子才能獲得圖片，但只輸入一句描述詞的情況下，大多只需50-60秒就能完成一張圖片。

以下使用了同為AI圖片產生器的Disco Diffusion所提供的示例描述詞「A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and Thomas kinkade, Trending on artstation.」來實測圖片的生成時長，約需60秒。

▲ Disco Diffusion官方示例描述詞產生圖丨源自Dall-E Mini

運行結果

由於是利用AI自動演算圖片，所以就算輸入兩次相同的描述詞，Dall-E Mini的運行結果也不盡相同。如果對生成的結果不甚滿意，可先保留當前結果，再多嘗試幾遍，說不定可以得到較合心意的成果。此外，Dall-E Mini生成的臉部五官大多較模糊，所以如果沒有特殊需求，在使用Dall-E Mini時，比起生物更建議輸入和「景物」相關的詞彙。