Stable Diffusion AI算圖使用手冊（1-1）：這是什麼黑魔術？

Stable Diffusion是款深度學習文字到圖像生成模型，主要的功能可以將文字敘述轉換為圖像，筆者將這系列文章介紹它的使用方式。

文章目錄

文轉圖的AI助手

相信在「電繪教母」風波之後，大家對AI算圖多少都有些瞭解，這類技術能夠將使用者輸入的文字轉換為圖像，在短短幾分鐘內就能產生許多有趣的圖片，不但可以做為美術工作者的有利助手，對一般人來說也具有相當娛樂性。

在各種圖像生成模型中，由StabilityAI、CompVis、Runway等公司合作開發的Stable Diffusion就是相當熱門的模型之一，它以擴散模型（Diffusion Model）為技術基礎，並且採用開源方式發布，使用者可以在遵守授權條款的前提下進行非商業與商業使用。

不過筆者在這邊先提醒，雖然根本Stable Diffusion程式的授權調款能夠進行商業使用，但是考量到許多AI模型不一定符合商業使用的範疇，另外目前AI算圖所產生的作品也尚無較為明確的法律規範，因此建議現階段僅先進行技術研究與體驗，不要將產出的圖片進行商業使用，以表示對原始圖像作者的尊重並避免法律糾紛。

話說回來，Stable Diffusion的另一個特色是能夠部署在自己的電腦上，只需要準備一套相容的電腦，就可以不使用方式與次數限制的自由使用，雖然前置作業與成本等門檻比線上服務高，但是可以胡搞瞎搞的「可玩度」更具吸引力。

延伸閱讀：電繪教母

▲ Stable Diffusion能夠將使用者輸入的文字透過AI產生圖像。（圖片來源：StabilityAI）

▲ Stable Diffusion的一大吸引力就是可以透過輸入「咒語」召喚各種「外芙」。（筆者註：外芙即Waifu，特指喜歡的漫畫角色）

▲ 在算圖過程套用不同的模型就可以產生多樣的風格。

▲ 當然也能透過Stable Diffusion產生真人風格的圖像。

▲ [2024 1/13更新] 隨著筆者操作的技術更加熟練，生成的圖像品質也越來越理想。

執行Stable Diffusion的系統準備

由於Stable Diffusion採用開源的型式發布，所以有許多開發者都推出了不同的衍生分枝與前端工具，筆者將在這系列文章中以由AUTOMATIC1111 所開發的Stable Diffusion WebUI為範例，並搭配Miniconda建立Python虛擬環境。

不過需要注意的是，雖然根據AUTOMATIC1111於Git提供的說明，Stable Diffusion WebUI除了能搭配NVIDIA顯示卡使用外，也可以透過DirectML搭配AMD顯示卡使用，或是於Apple Silicon上執行，但是考量現階段執行的相容性興與效能等因而，教學中將暫時只以NVIDIA顯示卡做為範例，並視情況於未來更新教學。

在執行Stable Diffusion的硬體需求部分，儲存裝置方面最低建議可用容量為20GB以上的傳統硬碟，但強烈建議準備大容量的固態硬碟以存放更多模型並提高讀取速度，以提升算圖的精準度、多樣性與速度。顯示卡方面則為搭載6GB顯示記憶體以上的型號，根據社群回饋的心得NVIDIA GeForce RTX 2060就能執行，但仍建議使用具有12GB顯示記憶體以上的型號（如GeForce RTX 3060），若是搭配GeForce RTX 40系列顯示卡自然能夠提升算圖速度。其餘如處理器與記憶體等規格則無特殊需求。

軟體部分則相對簡單許多，只要在Windows作業系統安裝Git、Python、Miniconda等軟體，並安裝顯示卡所對應的最佳化函數庫，就可以下載Stable Diffusion WebUI與各種模型，並且開始算圖了。

▲ Stable Diffusion WebUI提供易於使用的網頁介面，讓使用者彈指之間就能完成AI算圖。

筆者將於教學的2-1章節中實際示範安裝與GeForce RTX 40系列顯示卡最佳化的操作過程，請讀者參考下一頁的系列文章目錄。

（回到Stable Diffusion AI算圖系列文章目錄）