Stable Diffusion AI算圖使用手冊(1-1):這是什麼黑魔術?

Stable Diffusion AI算圖使用手冊(1-1):這是什麼黑魔術?

ADVERTISEMENT

Stable Diffusion是款深度學習文字到圖像生成模型,主要的功能可以將文字敘述轉換為圖像,筆者將這系列文章介紹它的使用方式。

文章目錄

文轉圖的AI助手

相信在「電繪教母」風波之後,大家對AI算圖多少都有些瞭解,這類技術能夠將使用者輸入的文字轉換為圖像,在短短幾分鐘內就能產生許多有趣的圖片,不但可以做為美術工作者的有利助手,對一般人來說也具有相當娛樂性。

在各種圖像生成模型中,由StabilityAI、CompVis、Runway等公司合作開發的Stable Diffusion就是相當熱門的模型之一,它以擴散模型(Diffusion Model)為技術基礎,並且採用開源方式發布,使用者可以在遵守授權條款的前提下進行非商業與商業使用。

不過筆者在這邊先提醒,雖然根本Stable Diffusion程式的授權調款能夠進行商業使用,但是考量到許多AI模型不一定符合商業使用的範疇,另外目前AI算圖所產生的作品也尚無較為明確的法律規範,因此建議現階段僅先進行技術研究與體驗,不要將產出的圖片進行商業使用,以表示對原始圖像作者的尊重並避免法律糾紛。

話說回來,Stable Diffusion的另一個特色是能夠部署在自己的電腦上,只需要準備一套相容的電腦,就可以不使用方式與次數限制的自由使用,雖然前置作業與成本等門檻比線上服務高,但是可以胡搞瞎搞的「可玩度」更具吸引力。

Stable Diffusion能夠將使用者輸入的文字透過AI產生圖像。(圖片來源:StabilityAI)

Stable Diffusion的一大吸引力就是可以透過輸入「咒語」召喚各種「外芙」。(筆者註:外芙即Waifu,特指喜歡的漫畫角色)

在算圖過程套用不同的模型就可以產生多樣的風格。

當然也能透過Stable Diffusion產生真人風格的圖像。

[2024 1/13更新] 隨著筆者操作的技術更加熟練,生成的圖像品質也越來越理想。

執行Stable Diffusion的系統準備

由於Stable Diffusion採用開源的型式發布,所以有許多開發者都推出了不同的衍生分枝與前端工具,筆者將在這系列文章中以由AUTOMATIC1111 所開發的Stable Diffusion WebUI為範例,並搭配Miniconda建立Python虛擬環境。

不過需要注意的是,雖然根據AUTOMATIC1111於Git提供的說明,Stable Diffusion WebUI除了能搭配NVIDIA顯示卡使用外,也可以透過DirectML搭配AMD顯示卡使用,或是於Apple Silicon上執行,但是考量現階段執行的相容性興與效能等因而,教學中將暫時只以NVIDIA顯示卡做為範例,並視情況於未來更新教學。

在執行Stable Diffusion的硬體需求部分,儲存裝置方面最低建議可用容量為20GB以上的傳統硬碟,但強烈建議準備大容量的固態硬碟以存放更多模型並提高讀取速度,以提升算圖的精準度、多樣性與速度。顯示卡方面則為搭載6GB顯示記憶體以上的型號,根據社群回饋的心得NVIDIA GeForce RTX 2060就能執行,但仍建議使用具有12GB顯示記憶體以上的型號(如GeForce RTX 3060),若是搭配GeForce RTX 40系列顯示卡自然能夠提升算圖速度。其餘如處理器與記憶體等規格則無特殊需求。

軟體部分則相對簡單許多,只要在Windows作業系統安裝Git、Python、Miniconda等軟體,並安裝顯示卡所對應的最佳化函數庫,就可以下載Stable Diffusion WebUI與各種模型,並且開始算圖了。

Stable Diffusion WebUI提供易於使用的網頁介面,讓使用者彈指之間就能完成AI算圖。

筆者將於教學的2-1章節中實際示範安裝與GeForce RTX 40系列顯示卡最佳化的操作過程,請讀者參考下一頁的系列文章目錄。

 

回到Stable Diffusion AI算圖系列文章目錄

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則