由AI所產生內容的AIGC能加速推動元宇宙的發展嗎？

▲ 美國柯洛納州博覽會獲獎藝術作品《太空歌劇院》

什麼是AIGC？

網際網路內容生產方式經歷了PGC→UGCAIGC的過程。PGC（Professionally Generated Content）是專業生產內容，如Web1.0和廣電行業中專業人員生產的文字和影片，其特點是專業、內容品質有保證。UGC（User Generated Content）是使用者生產內容，伴隨Web2.0概念而產生，特點是使用者可以自由上傳內容，內容豐富。AIGC（AI Generated Content）是由AI產生的內容，其特點是自動化生產、高效。隨著自然語言生成技術NLG和AI模型的成熟，AIGC逐漸受到大家的關注，目前已經可以自動產生文字、圖片、音訊、影片，甚至3D模型和程式碼。AIGC將極大的推動元宇宙的發展，元宇宙中大量的數位原生內容，需要由AI來説明完成創作。

▲ 內容生產方式演變過程

AIGC底層技術突破

底層技術的突破使AIGC商業落地成為可能，傳統AI繪畫技術採用生成對抗網路（GAN），但GAN產生的圖片結果輸出不穩定，解析度低。直到2021年OpenaAI團隊開源了其深度學習模型CLIP，以及今年7月出現的去躁擴散模型Diffusion，兩者相互結合，讓AI自動產生文字和圖片的品質得到了質的提升。

Diffusion是一種去雜點擴散模型，工作原理是對圖像逐步施加雜點（Image noise），直至圖像被破壞變成完全的雜點，然後再逆向學習從全雜點還原為原始圖像的過程，而AI所看到的是全是雜點的畫面如何一點點變清晰直到變成一幅畫，透過這個逆向過程來學習如何作畫。

CLIP是 OpenAI 在 2021 年初發布的用於匹配文本和圖像的神經網路模型，是近年來在多模態研究領域的傑出成果，它一方面對文字進行語言分析，另一方面對圖形進行視覺分析，不斷調整兩個模型內部參數，達到文字和圖像高度匹配的效果。

在AI生成文字方面，目前AI已經可以作詩、寫郵件、寫廣告、劇本和小說。在今年，採用AIGC技術的虛擬人度曉曉寫作中國高考作文，在不到1分鐘的時間，完成了40多篇文章，獲得專家打分48分的成績，擊敗了75%的考生。目前OpenAI的GPT-3模型是AI生成文字中最成熟的模型，最近有一些專案把GPT-3模型商業化，包括自動寫郵件的OthersideAI，自動寫廣告文案的Copy.ai和Jasper.ai，在使用者數量上突飛猛進，並獲得了大筆的融資，就在11月16日知識管理和內容協作平臺Notion也發布了其文字自動生成產品Notion AI，並開始Alpha版本測試，Notion AI也是基於GPT-3模型開發。

在AI產生圖片方面，今年AI作畫水準突飛猛進，其背後的演算法模型也在不斷反覆運算，年初推出的Disco Diffusion只能生成粗糙的圖片，4月OpenAI發布的DALL-E2代已經可以生成完整的人像和圖片，到8月StabilityAI發布的Stable Diffusion模型取得質的突破，已經可以產生可以媲美專業畫師的作品，生成圖片的效率也從年初的數小時到現在的幾分鐘甚至數十秒。

▲ AI生成圖片技術演變

延伸閱讀：從AI繪圖進化到寫真，AI煉丹師是如何一步一步打造出AI美少女夢工廠的？

在AI生成聲音方面，10月11日，AIPodcastPodcast.ai生成的一段關於賈伯斯和美國知名主持人喬·羅根之間的20分鐘訪談Podcast在科技圈廣為流傳，在Podcast中賈伯斯談到自己的大學時代、對電腦、工作狀態和信仰的看法，整個Podcast聽起來毫無違和感，基本做到以假亂真。

▲ 由AI所產生的喬·羅根採訪賈伯斯Podcast

在AI生成影片方面，目前AI生成影片的演算法模型還未成熟，也還沒出現一家獨大的局面。9月底Meta公布了AI製作影片工具Make-A-Video，Google也緊接著發布了Imagen Video和Phenaki。Make-A-Video具有文字轉影片、圖片轉影片、影片生成影片三種功能。僅僅透過文本描述，Phenaki就可以產生一段情節連貫的影片。10月9日B站上的UP主「秋之雪華」公布了全球首個AI繪圖、AI配音的動畫《夏末彌夢》的DEMO，其畫面精美程度不輸專業畫師的作品。

▲ AI動畫《夏末彌夢》DEMO但如果你觀看該DEMO後發現，動畫中人物幾乎是靜態的，只是在場景切換時換了個另一張圖，由此可以看出目前AI生成影片中動畫的過度和連貫性技術還不是很成熟，因為AI生成影片需要多個AI模型來配合完成。

▲ AI生成影片技術模型

從技術上看，影片是把多張圖片有邏輯和連貫的組合在一起。由文字產生影片，首先要生產出多張圖片，然後還要把這些圖片有邏輯和連貫性的組合起來，因此難度比文字產生圖片高了很多，如果一旦像文字生成圖片那樣能夠高效率的生成高品質影片，將對內短影音、影視、遊戲、廣告等內容生產行業帶來重大影響，不僅提升影片製作的效率和成本，還能幫助設計師產生更多的靈感和創意，讓影片內容行業變得更加豐富和繁榮。

在AI生成3D方面，以往的「3D建模」需要利用3D製作軟體通過虛擬3D空間構建出具有3D資料的模型，技術要求比較高，需要懂美術、熟悉3DMAX和Maya等軟體，還需要大量的時間去人工繪製。但UC Berkeley 的幾個博士後發表的論文神經輻射場技術（NeRF）可以把全景相機拍攝的影片自動算繪為3D場景，減少了人工3D建模的過程，NeRF技術在2020年的 ECCV (歐洲電腦視覺國際會議) 提出，並在2021年的ACM（美國電腦協會）獲了榮譽提名獎。著名VR科技部落客Robert Scoble 7月在他的Twitter發布了這個影片，他用NeRF技術算繪Insta360全景相機所拍影片後得到的3D場景，效果令人驚歎，預計會有相關項目將NeRF技術進行商業實際應用嘗試，對於這點非常值得期待。

延伸閱讀：AI繪圖的10大Q&A：用什麼「繪圖關鍵字」？有哪些繪圖網站?

AIGC領域重要項目

今年加入AI作畫賽道的公司越來越多，今年分別出現了Mid Journey、DALL-E2、Stable Diffusion、Tiamat、百度文心等多家AI作畫公司，以及JasperAI、CopyAI這樣的AI文字專案。

從融資角度來看，目前AIGC有3個商業化的方向：

第一個方向是透過AI生成文字，比如自動寫郵件和廣告行銷文案，這要歸功於OpenAI的GPT-3 AI語言模型，目前大多數AI產生文字類專案都使用該模型。
第二個方向是利用AI繪畫，主要技術是結合多模態神經語言模型CLIP和圖像去雜點擴散模型Diffusion，僅僅提供一些關鍵字描述就可以自動產生圖片。
第三個方向是AIGC的底層技術模型開發，OPENAI和StableAI 是這個方向的龍頭，也是融資金額最大的。

預計接下來AIGC的熱門方向可能是用AI產生影片和動畫，這就看Meta、Google的AI影片模型能不能解決影片的連貫性和邏輯性問題，或其他公司提出更好的解決方案。

▲ AIGC領域熱門專案

OpenAI/GPT-3, OpenAI是由馬斯克和Y-Combinator CEO Sam Altman于2015年成立的一個非營利組織，但2019 年馬斯克離開了OpenAI ，緊接著微軟注資 10 億美元將其變為營利性公司，並與微軟的雲端運算平臺Azure展開合作。最近微軟正在對OpenAI進行新一輪的投資進行後期談判，目前估值已經達200億美金。GPT-3是OpenAI於2020年5月推出的自然語言處理模型，支援使用者僅輸入一些關鍵字就能產生一封郵件、文章或新聞，甚至是小說，它是目前最成熟的自然語言生成技術NLG之一。今年4月OpenAI還推出了DALL-E2專案，允許使用者透過文本生成圖像，成為目前主流的三大AI作畫應用之一。

StableAI /Stable Diffusion，10月17日英國的Stability AI宣布以10億美元的估值完成1.01億美元融資，此次融資由 Coatue 和 Lightspeed 領投。消息稱Stability AI正準備下一輪 10 億美金的融資，本輪融資Google可能會參與，如果投資成功，相信Google將會和StableAI深度合作。Stability AI成立於2020年，由去中心化組織EleutherAI支援開發，其理念是「AI by the people, for the people」。StableAI主要研AI產生圖片、聲音、影片和3D的模型，其研發的開源AI作圖模型Stable Diffusion在2022年8月一經推出就立刻吸引了大家的目光，在Stable Diffusion的Dream Studio測試版網站中只要輸入文字描述，它就能產生一副可以媲美專業畫師的圖片，Stable Diffusion是開源產品，一些AIGC專案對其進行了二次開發，退出了包括圖像、語言、聲音、影片、3D、生物AI等模型。

▲ 由stable diffusion生成的圖片

延伸閱讀： AI繪圖「Stable Diffusion」快速上手，Midjourney的神級勁敵、開箱即用

Midjourney：Midjourney是一款可以和Stable Diffusio以及DALL-E2媲美的AI繪畫工具。Midjourney是部署在Discord上的應用程式，在Discord裡輸入文字，一分鐘就可以產生對應的圖片，目前其官方Discord已經擁有140萬使用者，其免費版本能生成的圖片數量有限，超出數量需要付費訂閱。

▲ 由Midjourney產生的圖片

OthersideAI：OthersideAI主打利用AI自動回復郵件，底層技術採用OpenAI的GPT-3 協議，OthersideAI曾獲得Madrona Venture Group領投的 260 萬美金種子輪融資，Madrona Venture Group曾參投過Amazon 的早期種子輪融資。 OthersideAI 的操作非常簡單，只要輸入郵件內容的關鍵要點，它就可以為生成一封完整的郵件。

CopyAI：Copy.ai 是一個透過AI來寫作廣告和行銷文案的創業公司，它可以幫助使用者幾秒鐘內生成高品質的廣告和行銷文案，主打 ToB 商業場景，它的底層技術也是採用OpenAI的GPT-3 協議。目前Copy.ai的使用者包括像微軟、Ebay 這樣的大公司。Copy.ai 曾獲得 Craft Ventures 領投的290 萬美金種子輪，A 輪融資 1100 萬美金，由Wing Venture Capital 領投，紅杉資金及Tiger Global 跟投。

JasperAI：Jasper.ai 成立於2020年，通過 AI 幫企業和個人寫行銷推廣文案以及部落格等各種文字內容（和Copy.ai 類似），其底層技術也是 GPT-3。Jasper.ai 10月以15 億美金估值完成了 1.25 億美元的 A 輪融資，由 Insight Partners 領投，Coatue、BVP以及 IVP 跟投。今年1月推出第一個版本後，很快受到歡迎，短時間內獲得了數百萬美元的收入。

Play.ht ：Play.ht 是一個 AI 文本轉換語音應用，在今年9月發布了第一個語音模型 Peregrine，包含數千種說話的聲音，可以學習人類的語氣、音調和笑聲。再進產生採訪賈伯斯Podcast的Podcast.ai就是採用Play.ht語音模型，它通過大量採集網路上關於賈伯斯的錄音，然後進行訓練，最終產生假賈伯斯的聲音，相似度非常高。

Notion AI： 剛剛於本月16日公布的Notion AI是知名知識管理和內容協作平臺Notion基於OpenAI GPT-3模型開發的AI文字生成工具。目前Notion AI的功能包括自動撰寫文章、廣告文案和Podcast；通過頭腦風暴為使用者提供創意建議；自動檢查文字拼寫和語法錯誤；自動翻譯文章；目前Notion AI以白名單的形式開放Alpha版本測試。相信Notion AI的加入將會進一步推動AI生成文字走向普及。

AIGC如何助推元宇宙發展

雖然元宇宙的終極形態還無法確定，但可以肯定的是元宇宙將極大擴展人類的存在空間，在我們邁向元宇宙的過程中，需要大量的數位內容來支撐，單靠人工來設計和開發根本無法滿足需求，AIGC正好可以解決這個問題。遊戲將是元宇宙中最先落地的場景，元宇宙和遊戲有一個共同點，都是為使用者提供高度的真實感和沉浸式體驗，我們可以拿AIGC在遊戲中的應用來說明其將如何主推元宇宙發展。

▲ AIGC技術在遊戲中的應用開發遊戲週期長和成本高，通常需要花費幾年時間和上千萬資金，好在AIGC可以極大提高遊戲的開發效率，具體來說，遊戲中的劇本、人物、頭像、道具、場景、配音、動作、特效、主程序未來都可以透過AIGC產生。根據AIGC在文字和圖像方向的推進速度，以上應用在五到十年之內應該可以實現。

紅杉資本在最近的研究報告中也指出，到2030年文本、程式碼、圖像、影片、3D、遊戲都可以透過AIGC生成，並且達到專業開發人員和設計師的水準。

▲ 圖片來源：紅杉資本除了遊戲之外，虛擬人也是元宇宙的一個重要實踐場景，AIGC同樣也會促進虛擬人領域的發展。

虛擬人是圍繞一個虛擬的人設，為其設計聲音、形象、動作、性格以及活動場景，其本質和遊戲相似度很高。虛擬人注重一個人在虛擬世界的表演和功能性，遊戲注重多個人在虛擬世界中的交互體驗。遊戲是一齣戲，虛擬人也是在演一齣戲，戈夫曼擬劇理論中的「人生如戲」一語道破了現實世界、虛擬世界的本質。

延伸閱讀： AI繪圖Disco Diffusion基礎教學：從下載、設定到關鍵字輸出一次搞定

AIGC在Web3方向的應用

AIGC聽起來這麼好，那跟Web3會有什麼關係？最近聽說Web3的基金都在看AIGC方向的專案，我想大概有這幾個方向值得關注。

Gamefi 開發引擎：在傳統遊戲中應用最廣的開發引擎是Unity和Unreal，但在Web3中，遊戲的開發典範也許會因AIGC帶來許多變革，因此將需要一個採用AIGC技術的Gamefi開發引擎。裡面的人物、場景、動畫均用AIGC設計，遊戲中的主程式和區塊鏈部分也可以透過AIGC程式碼生成功能完成，如果這些都能實現，設計Gamefi遊戲或者元宇宙場景將變得非常高效，這一套開發引擎將會具有極高的價值。目前看到RCT AI是運用人工智慧為遊戲行業提供完整解決方式的一個專案，但其在多大程度上採用了AIGC技術，還不得而知，不過已經有一款Gamefi遊戲Mirror World是基於RCT AI來開發的，有興趣的朋友可以進一步瞭解。

開發Gamefi遊戲：退而求其次，如果一套AIGC全集成的Gamefi開發引擎還太遙遠，那採用各個廠商提供的AIGC工具來開發Gamefi遊戲也會極大的提高效率，比如用AIGC來產生遊戲劇本、設計人物、生成動畫這些都幾乎都會很快實現，特別在AI產生影片和3D場景技術一旦成熟之後Gamefi遊戲開發效率將會突飛猛進。

算力和資料共用：訓練AIGC模型需要海量的資料和強大的算力，這導致成本非常巨大，AIGC行業龍頭 Stability AI 為了訓練其 Stable Diffusion模型，在 AWS 中運行了包含 4000 多個 Nvidia A100 GPU 的集群，運營成本高達數千萬美元。如果能透過去中心化方式發行Token激勵使用者提供訓練模型所需的資料，就可以很好的解決AIGC生成中的版權問題。另外也可以透過發行Token的方式，激勵使用者提供訓練模型所需要的大量算力，分散算力成本，實現成本共擔，利益共用。

結語

AIGC將分為三個發展階段：「助手階段」—「協作階段」—「原創階段」。「未來十年，AIGC將顛覆現有內容生產模式。可以實現以十分之一的成本，以百倍千倍的生產速度，去生成AI原創內容。」

在最近的研究報告中，紅杉資本的兩位合夥人也認為：「AIGC目前已經擁有更好的模型，更多的資料，更好的算力，預計殺手級應用該要出現了」。

對於以上判斷，我們傾向於認同，AIGC的出現意味著創作者將從繁冗的基礎性工作中解脫出來，把更多的精力放到創意表達上，這是未來內容創作行業，甚至是人類工作方式的整體趨勢。

延伸閱讀：超熱門AI繪圖DALL·E 2怎麼玩？除了生成圖像還能幫你修改內容