知名科技思想家凱文·凱利使用AI繪圖6個月後：AI將改變一切設計工作

每一項新技術誕生之初都會引發新一輪科技恐慌週期，近期大火的AI生成藝術更是如此。連線雜誌創始主編、知名科技思想家凱文·凱利（Kevin Kelly）在6個月重度使用之後認為，這次AI進展的確是一次令人震驚的突破。但是，它不會取代人的工作，反而會像攝影代替人像畫一樣帶來更多機會，可能有新的職位和產業，比如以後不會畫畫但有豐富想像力的人可以用提示命令創作，就像自己不演戲的導演卻可以創作偉大的電影。

更重要的是，AI繪畫讓我們思考：創造力其實不是某種超自然的力量，它可以被合成、放大和操縱。有了新的強大創造力工具，未來將會怎樣？

Kevin Kelly：《連線》雜誌（Wired Magazine）第一任主編；曾擔任《全球評論》（Whole Earth Review）主編、出版人。常被稱為「KK」，他是影響巨大的科技思想家，也是資深的攝影師。

延伸閱讀：從AI繪圖進化到寫真，AI煉丹師是如何一步一步打造出AI美少女夢工廠的？

令人驚歎的AI生成藝術

Lee Unkrich，皮克斯最傑出的動畫師之一（奧斯卡獲獎動畫片《玩具總動員》、《可可夜總會》等作品的導演），小時候最初接觸電腦時，還以為只要輸入幾個簡單的字比如「一張火車的照片」，就能出現相應的畫面。而實際上那時候並沒有這種魔法，各種圖片都需要由勤勞的人類精心程式設計和渲染出來。

43 年後，他偶然發現了 DALL-E，按照人給出的文字提示，就像「一張火車的照片」這麼簡單，它真的可以產生很有原創味道的藝術作品。當他輸入文字，創建一個又一個圖片時，哇魔法實現了！「這感覺就像一個奇跡，」他說，「當產生的那些圖片出現時，我屏住了呼吸，眼淚奪眶而出。真是神奇。」

是的，AI在藝術創作方面最近有了突破。我們曾經認為電腦是不會有創造力的，但突然之間，數以百萬計的人現在正在使用一種新的 AI 來生產令人驚歎的、前所未見的圖片。這些使用者中的大多數都不像 Lee Unkrich 那樣是專業藝術家，這就是重點：他們也不必是。不是每個人都能編劇、導演和剪輯像《玩具總動員 3》或《可可夜總會》這樣的奧斯卡獎獲獎電影，但每個人都可以啟動 AI 圖像生成軟體並輸入想法。螢幕上出現的內容在其逼真度和細節深度方面令人震驚。畫筆在手，人工智慧已經成為創造驚奇的引擎。

這些 AI 從人類創造的數十億張圖片中學習，它們的輸出很符合我們的期望。與此同時，它們又是神奇的人工智慧，甚至對它們的開發者來說都是神秘的，它們又能以一種人類不可能想到的方式重組出新圖片，填充我們大多數人都沒有想像的藝術性的細節，更不用具體畫出來了。還可以指示它們以我們想要的任何樣式在幾秒鐘內產生我們喜歡的東西的更多變體。歸根結底，它們最強大的優勢是：可以創作出易於理解但同時又完全出乎意料的新東西。

延伸閱讀：AI繪圖的10大Q&A：用什麼「繪圖關鍵字」？有哪些繪圖網站?

事實上，這些新的 AI 產生的圖像是如此出乎意料，以至於在驚歎之後的無聲敬畏中，幾乎所有遇到過它們的人都會想到另一個想法：人創作藝術的時代現在結束了。誰能與這些機器的速度、廉價、規模以及瘋狂的創造力競爭？藝術是我們必須屈服於機器人的另一種人類活動嗎？下一個顯而易見的問題是：如果電腦是有創造力的，那麼它們還能做什麼我們之前以為它們做不到的事情？

在過去的六個月裡，我用 AI 創作了幾千張炫酷的圖像，經常在無休止地尋找隱藏在程式碼中的更多美感的過程中失眠。在採訪了這些AI的開發者、高級使用者和其他早期採用者之後，我可以做出非常明確的預測：生成式 AI 將改變我們設計幾乎所有事物的方式。但是，沒有一個人類藝術家會因為這項新技術而失業。

將借助 AI 作畫稱為共同創作（cocreation）並不誇張。這種新能力的驚人秘密在於，它的最佳應用不是輸入單個提示，而是人與機器之間長時間對話產生的結果。每幅畫的進步都來自很多很多次的反覆運算、來回實驗、迂迴，以及數小時，有時甚至數天的多人團隊合作——所有這些都得益於機器學習多年的進步。

人工智慧繪畫系統誕生於兩種獨立技術的結合。一個是深度學習神經網路的不斷進展，可以產生連貫的逼真圖像，另一個是可以作為圖像引擎介面的自然語言模型。（譯注：這裡的描述不太嚴謹，AICG所使用的電腦視覺和NLP技術都是基於深度學習的，而且更重要的進展是基於Transformer的大模型的出現。）兩者結合成語言驅動的圖像生成軟體。研究人員在網際網路上搜尋所有具有類似文本（比如圖片標題）的圖像，並使用數十億個樣本將圖片與文字、文字與圖片聯繫起來。透過這種新的組合，人類使用者可以輸入一串描述他們需要的圖像的詞，稱作提示（prompt，類似命令），然後提示會根據這些詞產生圖像。

Google開創了擴散運算模型（譯注：這麼說不準確。擴散模型最早由史丹佛大學J Sohl-Dickstein等2015年提出，技術上有三個源頭：2020年發表的加州大學柏克萊分校Jonathan Ho等提出的DDPM，史丹佛大學宋颺等2019年提出的SGM和2020年提出的Score SDE。最早有影響的系統實現也不是Google，而是OpenAI的DALL-E第一版。），但出於各種顧慮，至今沒有向公眾開放自己的實驗室產生器Imagen和Parti。目前，最受歡迎的是三家沒有太多歷史負擔的初創公司絕非偶然：由David Holz發起的Midjourney，並衍生了新興的藝術家社群，其AI介面是一個嘈雜的Discord伺服器；OpenAI的DALL-E 2；今年8月，歐洲企業家Emad Mostaque創立的開源項目Stable Diffusion是開源項目，任何人都可以下載它的軟體並在自己的桌面上本地運行，因此應用現在最廣。（譯注：其他機構還可以基於Stable Diffusion二次開發，這一點可能更重要。）目前，僅僅在Midourney、Stable Diffusion、Artbreeder 和 DALL-E這四種AI平臺上，與 AI 合作的人類現在每天共同創作超過 2000 萬張圖像。

延伸閱讀： AI繪圖「Stable Diffusion」快速上手，Midjourney的神級勁敵、開箱即用

AI生成藝術的療愈性與實用性

AI創造出這些圖像的原因，與人類一直以來創造大多數藝術的原因一樣：因為圖像很美，值得人欣賞。

就像篝火的火焰一樣，光影圖案令人著迷。這是一種類似於探索電子遊戲世界或者翻閱藝術書籍的樂趣。它們的創造力有一種真正的美，我們凝視它們的方式，就像我們欣賞博物館裡的一場偉大藝術展一樣。

像任何藝術一樣，這些圖片也能起到治癒性的作用。人們花時間製作奇怪的人工智慧圖片，就像他們在周日作畫，或在日記中塗鴉，或拍攝影片一樣。他們用媒體來解決他們自己生活中的某些問題，表達某些無法用其他方式表達的東西。我見過一些圖片，描繪了動物天堂的模樣——是作者為了愛犬的死亡而創作的。許多圖像探索了無形的、精神領域的表達，涵蓋一種思考方式。「這很大一部分基本上是藝術療法，」Midjourney創始人David Holtz（也曾是Leap Motion的聯合創始人和CTO）告訴我，「從普遍意義上來說，這些圖像並非真正具有美學吸引力，但在人們真實的生活背景下，它們就會以一種非常深刻的方式吸引人。」

AI產生的圖片也可以是實用性的。假設你正在提交一份關於將醫院塑膠垃圾回收為建築材料的可能性報告，而你想要一張用試管建造的房子圖片。當然圖片市場上可以去搜尋由人類藝術家製作的可用圖片，但是像這樣獨特的要求一般很少能找到現成的圖像，即使找到了，其版權狀況也可能堪憂或者很昂貴。而AI產生器可以在幾分鐘內為你的報告產生一張獨一無二的、個性化的圖片，你可以將其插入你的幻燈片、主頁或部落格中，這樣做更便宜、更快，可能也更適合你，而且版權也是你自己的。

這種新的藝術介於繪畫和攝影之間。它存在於一個和繪畫一樣寬廣，與人類想像力一樣廣闊的空間裡，而你則像一個攝影師一樣在這個空間裡穿梭，尋找新的發現。調整你的prompt（提示語），可能就會到達一個從沒有人去過的地方，你可以慢慢探索這個區域。這個領域可能是一個主題，或一種情緒，一種風格。藝術的核心就在於找到一個新的領域，並將自己沉入其中，進而鍛煉出良好的品味和敏銳的眼光。

延伸閱讀： AI繪圖Disco Diffusion基礎教學：從下載、設定到關鍵字輸出一次搞定

藝術家如何應對AI生成藝術的恐慌？

每一項新技術誕生之初都會引發新一輪科技恐慌週期，總結來講這一週期可分為七個階段:

別讓我看到這些垃圾，根本沒用。
好吧，這東西確實發生了，但是很危險，因為效果並不好。
等等，它太好用了，我們必須得做點什麼擾亂它！
這東西太強大了，對於那些無法觸達它的人來說是不公平的。
現在它無處不在，無法逃離，這不公平。
我打算戒掉它，戒一個月。
讓我們關注真正重要的問題ーー下一個會出現的東西是什麼？

其中，第三級恐慌，正是一群精通藝術的藝術家和攝影師正在面對的，他們害怕其他人（但絕不是他們自己）會丟掉工作。Getty Images目前已經禁止了人工智慧產生的圖像；一些在 DeviantArt 上發佈作品的藝術家們也提出了類似的禁令。相對善意的方式則是用標籤來辨識出AI生成的藝術，並將其與「真正的」藝術分開。

除此之外，一些藝術家希望保證他們自己的作品不被用來訓練人工智慧。但這是典型的3級恐慌。這些演算法將觸達60億張附帶文本的圖像，如果你不是一個有影響力的藝術家，刪不刪除你的作品沒什麼區別——即使你是一個有影響力的藝術家，刪除你的圖片仍然沒有關係。因為你的風格已經深深影響了其他人的作品，即使圖片被刪除，影響力依然在。就好比，即使我們把梵谷的作品從訓練集中刪除，梵谷的風格仍然深深植根於那些模仿他或受他影響的人所創造出的龐大圖像海洋中。

藝術風格也可以透過prompt來限定，比如：「用梵谷的風格」。一些藝術家不允許自己的名字被用在AI產生的prompt當中，這樣就無法產生他們藝術風格的作品。（當然也可以透過把名字拼錯，或者簡單地用文字描述來繞過這種限制）

此外還有另外一個動機讓藝術家們刪除自己的名字——他們可能擔心大公司會從他們的工作中賺錢，而他們的貢獻卻得不到補償。畢竟我們不會因為人類藝術家對其他人類藝術家的影響而補償他們。以大衛·霍克尼為例，他是當今收入最高的藝術家之一。霍克尼經常承認其他在世的藝術家對他的作品的巨大影響。但是我們不指望他能給影響他的捐錢。

更重要的是，眾所周知，影響鏈是模糊、短暫和不精確的。在藝術創造中，我們會潛移默化地受到周遭的影響，其影響的程度卻無法量化。寫備忘錄或用手機拍照時，誰能說出海明威在多大程度上直接或間接地影響了我們？同樣地，弄清楚AI生成藝術宇宙中的影響鏈也是不可能的。理論上，我們可以建立一個系統，把 AI 賺來的錢支付給訓練集中涉及的藝術家，但是每位藝術家在60億股中的實際補償池中得到的將如此微不足道，以至於堪稱荒謬。

在未來幾年裡，人工智慧圖像產生器中的運算引擎將繼續擴展和改進，直到它成為視覺化工作中的一個中心節點。它將成為一個視覺搜尋引擎，一個圖像理解的視覺百科全書，

目前，神經網路演算法都依賴於大量的資料，但在未來十年，我們將擁有可操作的AI，它所依賴的學習實例要少得多，也許只有1萬個。我們將教會更強大的AI圖像產生器如何作畫，向它們展示那些高度精選的現有藝術圖像。當這一天到來時，各種背景的藝術家都將為了被納入訓練集而彼此爭鬥。主流藝術家的影響力會被所有人分享和感受，那些未被納入的藝術家必須面對的困難不是盜版，而是默默無聞。

延伸閱讀：超熱門AI繪圖DALL·E 2怎麼玩？除了生成圖像還能幫你修改內容

提示的藝術：優秀的提示者就像電影導演

同一個程式，那些累積了數千小時的演算法的人們可以神奇地生成比普通人好很多倍的圖像。這些大師的作品具有驚人的連貫性和視覺衝擊力，充斥著大量細節。

這是一項團隊運動，是人類藝術家和機器藝術家的二重唱。它不僅需要經驗，還需要大量的時間和工作。就好像在 AI 上有一個滑動條: 一端是最大驚喜，另一端是最大服從。讓AI給你驚喜是很容易的（這是我們經常要求的）。但是要讓AI服從你就非常困難。

Mario Klingemann 以銷售AI生成藝術作品的 NFT 為生，他說，「如果你腦海中有一個非常具體的圖像，你總會感覺自己在對抗一個力場。」諸如「遮蔽此區域」、「增強此部分」和「淡化它」之類的命令讓AI服從起來非常費力。好像必須要說服它一樣。

當前版本的 DALL-E, Stable Diffusion, 和 Midjourney將prompt的長度限制在一條長推文的範圍內。再長的話，文字就會混在一起——圖像就會變成漿糊。這意味著每一個神話般的圖像背後都有一個召喚它的簡短魔法咒語。從第一段咒語開始，你就要斟酌措辭。你的直接結果將會在四到九張圖片中顯現出來。從那批照片中，你可以對後代圖片進行變化調整。有了一個雛形，如果看起來比較滿意，就可以開始朝著新的方向調整咒語，讓它誕生更多代的圖像。

在尋找最引人注目的構圖時，要將這組圖像反復「繁殖」，即使需要幾十代，也不要感到絕望。你要像AI一樣思考：它喜歡聽什麼？悄悄地告訴它過去的成功經驗，並把它們加入到prompt中。如此重複，改變詞序，看看它是否喜歡。記住，要具體，要不斷重複。然後要毫不留情地進行選擇，並開始描繪期望中的圖像。如果 AI 不理解你的prompt，可嘗試其他人使用的咒語。最後，將圖像遷移到Photoshop進行最後的裁剪。別害怕重複，一個與眾不同的圖像即使需要50個步驟也不罕見。

這種新技術的背後是提示的藝術。每個藝術家或設計師都會開發一種方法，透過改進提示符來說服AI做到最好。我們將這些新藝術家稱之為人工智慧耳語者（AI whisperers），或者提示藝術家、提示者。

提示者幾乎像導演一樣工作，引導他們的「外星合作者」的工作走向一個統一的願景。從人工智慧中提取一幅一幅圖片所需的複雜過程，正在迅速成為一種精細藝術技能。PromptBase 是一個供提示者銷售prompt的市場，這些提示可以創建簡單的圖像，如表情符號、象徵、圖示、頭像和遊戲武器，就像剪貼畫一樣，但他們不賣藝術品，而是賣產生藝術的prompt。

出於技術原因，即使重複完全相同的提示，也不太可能得到相同的圖像，每個圖像都有一個隨機產生的種子。此外，同樣的提示給不同的AI引擎會產生不同的圖像ーーMidjourney偏油畫風，而 DALL-E 則偏向攝影的真實風格。Robyn Miller，傳奇遊戲《迷霧之島》的創造者，一位數位藝術家的先驅，每天都會發表一張人工智慧產生的圖片。「當人們問我使用了什麼提示時,」他說，「並不想告訴他們。這是一門藝術，這也讓我感到驚訝。」

Daily AI art #dalle #dalle2 pic.twitter.com/C57GPz0Qgx
— Robyn Miller (@tinselman) October 23, 2022

在我看來，提示者顯然正在創造真正的藝術。一個完美的電影導演，如希區考克，如黑澤明，是一個演員、動作、場景和想法的完美提示者。從這個意義上講，優秀的圖像產生器提示者也在從事類似的工作。今年夏天，Jason Allen 利用 Midjourney 創作的作品「太空歌劇院」（Théâtre D'opéra Spatial），奪得科羅拉多州博覽會藝術比賽頭獎。這是一幅相當酷的圖片。

▲ 利用 Midjourney 創作的作品「太空歌劇院」（Théâtre D'opéra Spatial）

Photoshop 和 Blender 等工具使藝術家能夠從數位化的物體、紋理和部件庫中獲取資訊，並將其拼貼在一起形成場景。它們不是畫出來的；這些數位圖像是不折不扣的技術組合。用AI來孕育拼貼畫堪比一種自然的進化。作者告訴 Vice，「我一直在探索一種特殊的prompt。我已經用它創作了數百張圖片，經過數周的微調和策劃，選出了前三名。」

當然，這也敲響了警鐘。對一些評論家來說，這是時代的終結，是藝術的終結，是人類藝術家的終結。可以預見的哀悼接踵而至，許多人指出，這對於苦苦掙扎的藝術家來說是多麼不公平。AI不僅可能接管並殺死我們所有人，它們同時還會創造出世界上最好的藝術。

展望與反思：創造力不是超自然力量，可被合成、放大和操縱

9月，三個新的文本轉3D/影片圖像的產生器接連發表: GET3D (Nvidia)，Make-A-Video (Meta)和 DreamFusion (Google)。AI繪製的2D 圖片令人驚歎，但真正超能力是將生產3D 圖像和影片。

一個未來3D引擎的prompt可能是這樣的: 「創建一個十幾歲孩子的凌亂臥室，牆上貼著海報，床鋪還沒整理，午後陽光透過百葉窗照射進來。」幾秒鐘之內，一個完整的3D房間就誕生了。同時，AI還可以使遊戲、元宇宙和電影像小說、繪畫和歌曲一樣快速地製作出來。當大筆資金和專業人士配備這些新工具時，複雜程度空前的傑作將誕生。

到目前為止，AI產生器作為合作夥伴工作得很好。一個暴走的AI接管人類的噩夢也沒有發生。這種設想從根本上來說是對歷史的誤讀。技術很少直接取代人類從事他們想做的工作。智慧型手機出現後，每個人都是攝影師。原本預計攝影職業要下降了，然而事實上，美國攝影專業人士的數量一直在緩慢增長，從2002年的16萬人（攝影手機之前）增至2021年的23萬人。

與其懼怕AI，不如思考它教會了我們什麼。而AI圖像生成教給我們最重要的事情是: 創造力不是某種超自然力量，它是可以被合成、放大和操縱。事實證明，我們不需要為了孵化創造力而實現智慧。創造力比我們想像的更加重要。它是獨立於意識的。

學者們提到的創造力指的是所謂的「大寫」創造力。大寫的創造力是重大突破所帶來的驚人的、顛覆領域的、改變世界的重構。想想狹義相對論，DNA發現，或畢卡索的格爾尼卡。大寫的創造力超越了單純的創新。它是特別而罕見的。它以一種深刻的方式觸動了我們人類，遠遠超過外星的AI所能理解的。

當然，這種高度的「大寫」創造力不應該與大多數人類藝術家、設計師和發明家日復一日產生的創造力相混淆。平凡而普通的創造力可以是一個偉大的新標誌設計或一個很酷的書籍封面，或我們最喜歡的科幻連續劇的場景。自古以來，大多數的人類藝術都是微小的，而這類微小的創意正是AI產生器所能提供的。

這是有史以來第一次，人類可以按需、即時、大規模、廉價地進行日常的創造性行為。「合成創造力」現在成了一種商品。古代哲學家可能要掀棺材板了，事實證明，要產生創造力--生成新的東西--你需要的只是正確的程式碼。我們可以把創造力應用於大型統計模型，或者嵌入到藥物發現的例行程式中。

還能用合成創造力做什麼？有點像中世紀的農民被問到: 「如果你的手指上有250匹馬的力量，想做什麼?」——顯然無人知曉。但這是一種非凡的天賦，唯一所知的是，我們現在有了觸手可及的創造力引擎，可以瞄準那些從未進行創造性變革的陳腐角落。新技術可能會瓦解潰敗，但這種超能力可以幫我們無限期地延長驚歎值。如果使用得當，甚至可以在宇宙中製造一個小小的凹痕。

資料來源：

Picture Limitless Creativity at Your Fingertips