隨著生成式人工智慧的發展，遊戲製作領域將迎來前所未有的變革

▲ 要瞭解生成式人工智慧將如何徹底改變遊戲領域，只需看看 @emmanuel_2m 最近的 Twitter發文。在推文中，他探索使用 Stable Diffusion + Dreambooth（目前流行的2D生成式AI模型），為一款假想的遊戲生成了一個藥劑瓶圖像。

生成式人工智慧的變革性之處在於，它不僅節省了時間和金錢，而且還提供了高品質的作品，從而打破了經典的「成本、品質或速度只能選其二」的三角模型。藝術家們現在只需幾個小時，就能創作出高品質的圖像，否則需要花費數周的時間來手工製作。真正具有變革性意義的是：

現在，只要能學會一些簡單的工具，任何人都可以獲得這種創造力。這些工具可以以高度反覆運算的方式，創造出無窮無盡的變化。一旦訓練完畢，這個過程就是即時的，結果幾乎是即時可用的。

自即時 3D 技術以來，還沒有一種技術對遊戲具有如此革命性的意義。只要花點時間與遊戲創造者交談，你便能夠感受到興奮和驚奇。那麼，這項技術將走向何方？它將如何改變遊戲？首先，讓我們回顧一下什麼是生成式人工智慧？

什麼是生成式人工智慧？

生成式人工智慧是機器學習的一個類別，電腦可以根據使用者的「提示」生成原創的新內容。如今，文本和圖像是這項技術最成熟的應用，但從動畫、音效到音樂，甚至是創建具有完整個性的虛擬角色，幾乎每個創意領域都有生成式人工智慧的影子。

當然，AI 在遊戲中並不是什麼新鮮事。即使是早期的遊戲，如美國雅達利公司（ATARI）開發的乒乓遊戲《Pong》，也有電腦控制的對手來挑戰玩家。然而，這些虛擬對手並沒有像我們今天所知道的那樣運行人工智慧，而只是遊戲設計師編寫的腳本程式。電腦模擬了一個人工智慧的對手，但這個對手不會學習，只能遵循程式設計師的程式碼來工作。

現在不同的是，由於更快的微處理器和雲端運算，可用的運算能力大大增強。有了這種能力，就有可能構建大型神經網路，可以在高度複雜的領域中辨識模式和表徵。

這篇文章分為兩部分：

第一部分是我們對遊戲領域生成式人工智慧的觀察和預測。
第二部分是我們對該領域市場地圖的描述，這部分概述了各個細分市場，並確定了每個細分市場的關鍵公司。

觀察和預測

假設

首先，讓我們來探討一下本文其餘部分所依據的一些假設。

對通用人工智慧的研究將持續發展，創造出更有效的技術

這張圖表顯示了 arXiv 中每月發表的關於機器學習或人工智慧的學術論文數量：

▲ arXiv 中每月發表的關於機器學習或人工智慧的學術論文數量。圖片來源：a16z.com

正如你所看到的，論文數量呈指數級增長，沒有放緩的跡象。這還只包括已發表的論文，許多研究甚至從未發表過，而是直接用於開源模型或產品研發。其結果是興趣和創新的爆發。

在所有娛樂中，遊戲將受到生成式人工智慧最大的影響

就涉及的應用類型（2D 藝術、3D 藝術、音效、音樂、對話等）而言，遊戲是最複雜的娛樂形式。遊戲也是最具互動性的，強調即時體驗。這為新遊戲開發者創造了一個巨大的門檻，同時也意味著製作一款現代的排行榜冠軍遊戲會產生巨大的成本。這也為生成式人工智慧的顛覆創造了巨大的機會。

▲ 在所有娛樂中，遊戲將受到生成式人工智慧最大的影響。圖片來源：a16z.com

以《碧血狂殺 2》（Red Dead Redemption）為例，它是有史以來最昂貴的遊戲之一，製作成本接近5億美元。原因很簡單，它擁有市場上所有遊戲中最美麗、最完整的虛擬世界之一。這款遊戲也花了近 8 年的時間來製作，擁有超過 1000 個 NPC（non-playable characters），每個角色都有自己的個性和配音演員。這款遊戲包含一個面積近 30 平方英里的世界，有 100 多個任務分散在 6 個章節中，還有由 100 多名音樂家創作的近 60 個小時的音樂。關於這個遊戲的一切都很宏大。

▲ 關於這個遊戲的一切都很宏大。圖片來源：a16z.com

現在，我們將《碧血狂殺 2》與《微軟模擬飛行》（Microsoft Flight Simulator）進行比較，後者不僅是大，而且是非常龐大。微軟模擬飛行讓玩家能夠環繞整個地球飛行，這可是 1.97 億平方英里的地球。微軟是如何製作出如此龐大的遊戲的？答案是讓人工智慧來做。微軟與 blackshark.ai 合作，並訓練人工智慧從 2D 衛星圖像產生逼真的 3D 世界。

▲ 微軟模擬飛行讓玩家能夠環繞整個地球飛行。圖片來源：a16z.com

這款遊戲如果不使用 AI 就不可能創造出來，而且，這些模型還可以隨著時間的推移而不斷完善。例如，他們可以改善「高速公路交流道」模型，重新運行整個建造過程，突然之間讓整個星球上的所有高速公路交流道都得到了改善。

遊戲製作中涉及的每項內容都將有一個生成式人工智慧模型

到目前為止，像 Stable Diffusion 或 MidJourney 這樣的 2D 圖像產生器，由於其能夠產生吸引人的圖像，正處在生成式人工智慧的聚光燈下。但是，已經有生成式人工智慧模型用於遊戲中涉及的幾乎所有內容，從 3D 模型到角色動畫，再到對話和音樂。這篇文章的後半部分包括一張市場地圖，展示了一些專注於每種類型內容的公司。

遊戲資產的價格將大幅下降，在某些情況下實際上會降至零

當與那些正在嘗試將生成式人工智慧整合到其製作過程中的遊戲開發者交談時，最令人興奮的是時間和成本的大幅減少。一位開發者曾告訴我們，他們為一張圖片生成概念圖的時間，（從開始到結束）已經從 3 周縮短至 1 小時，這個時間比例是 120 比 1。我們相信，整個生產線都可能節省類似的時間。

需要明確的是，藝術家並沒有被取代的危險。這確實意味著美工不再需要自己做所有的工作，他們現在可以設定最初的創意方向，然後將大量耗時和技術執行工作交給人工智慧。在這一點上，他們就像手繪動畫早期的畫師一樣，技藝高超的「墨匠」畫出動畫的輪廓，然後由成本較低的「畫師」大軍做耗時的工作，為動畫上色，填充線條。這就是遊戲創作的「自動完成」過程。

我們仍處於這場革命的初期階段，許多做法仍需要完善

儘管最近發生的事情令人興奮不已，但我們還只是在起跑線上。在我們弄清楚如何將這種新技術應用於遊戲的過程中，還有大量的工作要做，那些迅速進入這個新領域的公司將會獲得巨大的機會。

預測

基於這些假設，以下是關於遊戲產業將如何轉變的一些預測：

學習如何有效地使用生成式人工智慧，將成為一種有市場價值的技能

我們已經看到一些實驗人員比其他人能更有效地使用生成式人工智慧。要充分利用這項新技術，需要使用各種工具和技術，並知道如何在它們之間來回切換。我們預測，這將成為一種有市場價值的技能，它結合了藝術家的創造性視野和程式設計師的技術技能。

克里斯·安德森（Chris Anderson）有句名言：「每一次富足都會帶來新的匱乏。」隨著內容變得豐富，我們相信那些知道如何最有效地與AI工具合作的藝術家，將是最緊缺的。

例如，使用生成式人工智慧製作藝術作品會帶來特殊的挑戰，包括：

對於任何內容，你都需要能夠對該內容進行修改或編輯。對於人工智慧工具，這意味著需要能夠以相同的提示來複製內容，這樣你就可以進行修改。這可能會很棘手，因為相同的提示可能會產生截然不同的結果。
一個遊戲中的所有藝術都要有一致的風格，這意味著你的AI工具需要與特定的風格相結合。

降低門檻會帶來更多冒險和創造性的探索

我們可能很快就會進入遊戲開發的新「黃金時代」，在這個時代，進入門檻的降低會導致更多創新和創意遊戲的爆發。不僅因為更低的製作成本帶來更低的風險，還因為這些工具可以為更廣泛的受眾創造高品質的內容。這就引出了下一個預測……

AI 輔助的「微遊戲工作室」崛起

有了生成式人工智慧工具和服務，我們將開始看到只有 1 或 2 名員工的小型「微工作室」製作出更多可行的商業遊戲。小型獨立遊戲工作室的想法並不新鮮，熱門遊戲 Among Us 就是由只有 5 名員工的 Innersloth 工作室開發的。如今，這些小工作室能夠創造的遊戲的規模將會增長。這將導致……

每年遊戲發行數量的增加

Unity 和 Roblox 的成功表明，提供強大的創意工具能夠創造出更多遊戲。生成式人工智慧將進一步降低門檻，讓遊戲開發者創造出更多遊戲。遊戲行業已經在面臨著曝光度的挑戰了，僅 2021 年一年就有超過 1 萬款遊戲被上架到 Steam 上，這將為曝光度帶來更大的壓力。然而，我們也會看到……

生成式人工智慧出現之前不可能出現的新遊戲類型

如果沒有生成式人工智慧，我們將無法創造出這種新的遊戲類型。我們已經談到了微軟模擬飛行，但將會有全新的類型被發明出來，這些類型的遊戲依賴於新內容的即時產生。

以 Spellbrush 的 Arrowmancer 為例，這是一款 RPG 遊戲，以 AI 創造的角色為特色，提供幾乎無限的新玩法。我們還知道另一家遊戲開發商正在使用AI，讓玩家創建自己的遊戲角色。以前他們有一系列手繪的頭像，玩家可以混合和匹配來創建自己的頭像，現在他們完全拋棄了這個，而是根據玩家的描述來產生頭像。讓玩家透過 AI 產生內容，比讓玩家從頭開始上傳自己的內容更安全，因為 AI 可以被訓練成避免創造攻擊性內容，同時還能讓玩家有更大的所有權感。

價值將歸於行業特定的人工智慧工具，而不僅僅是基礎模型

圍繞 Stable Diffusion 和 Midjourney 等基礎模型的熱潮正在推動其不斷走高的估值，但新研究的持續湧現，確保了新模型將隨著新技術的完善而出現和消失。看看 3 種流行的生成式人工智慧模型（Dall-E, Midjourney 和 Stable Diffusion）的網站搜尋流量，每一款新模型都成為了人們關注的焦點。

▲ 看看3種流行的生成式人工智慧模型（Dall-E, Midjourney 和 Stable Diffusion）的網站搜索流量，每一款新模型都成為了人們關注的焦點。圖片來源：a16z.com

另一種方法可能是構建與行業相一致的工具套件，專注於特定行業的生成式人工智慧需求，深入瞭解特定受眾，並與現有的製作方式（如遊戲的 Unity 或 Unreal）進行豐富的整合。

一個很好的例子是 Runway，它針對影音創作者的需求，提供人工智慧輔助工具，如影音編輯、綠幕移除、修補和運動追蹤。像這樣工具的受眾是特定的使用者，隨著時間的推移加入新的模型。我們還沒有看到像 Runway 這樣的遊戲套件出現，但我們知道這是一個積極發展的領域。

法律挑戰即將到來

所有這些生成式人工智慧模型的共同點是，它們都是使用大量的內容資料集進行訓練的，這些資料集通常是透過抓取網際網路本身來創建的。例如，Stable Diffusion 是從網路上抓取的超過 50 億張圖像/標題對進行訓練而成的。

目前，這些模式聲稱是在「合理使用」的版權原則下運作的，但這一論點尚未在法庭上得到明確的驗證。顯然，法律挑戰即將到來，這可能會改變生成式人工智慧的格局。

大型工作室有可能通過其擁有明確權利和所有權的內部內容，建立專有模型來尋求競爭優勢。以微軟為例，它目前擁有 23 家第一方工作室，在收購動視後又增加了 7 家。

程式設計不會像藝術內容那樣被徹底顛覆，至少現在還不會

軟體工程是遊戲開發的另一個主要成本，但正如我們 a16z 企業團隊的同事在他們最近的部落格中所分享的那樣，用AI模型產生程式碼需要更多的測試和驗證，因此比產生創造性內容的效率提升更小。像 Copilot 這樣的編碼工具可能會為工程師提供適度的性能改進，但不會產生同樣的影響，至少短期內不會。

建議

基於這些預測，我們提出以下建議：

現在就開始探索生成式人工智慧

要想弄清楚如何充分利用即將到來的生成式人工智慧革命的力量，還需要一段時間。現在就開始行動的公司，以後會有優勢。我們知道有幾個工作室正在進行內部實驗項目，以探索這些技術如何影響生產。

尋找市場地圖上的機會

目前市場地圖的某些部分已經非常擁擠，如動畫或語音與對話，但其他領域還很開放。我們鼓勵對這一領域感興趣的企業家，將精力集中在尚未開發的領域，例如「遊戲領域」。

第二部分：市場地圖

市場現狀

我們創建了一個市場地圖，以記錄那些在遊戲領域的不同類別中，探索生成式人工智慧應用的公司。這篇文章會詳細介紹這些類別，並重點介紹每個類別中最令人興奮的公司。

▲ 遊戲領域生成式人工智慧的市場地圖。圖片來源：a16z.com

2D圖像

根據文本提示生成 2D 圖像已經是生成式人工智慧應用最廣泛的領域之一。Midjourney、Stable Diffusion 和 Dall-E 2 等工具可以從文本中生成高品質的 2D 圖像，並且已經在遊戲生命週期的多個階段應用於遊戲製作中。

概念藝術

生成式人工智慧工具非常擅長「構思」或幫助非藝術家（如遊戲設計師）快速探索概念和想法，以生成概念藝術作品，這是製作過程的一個關鍵部分。例如，一個工作室（不願透露名稱）將這些工具結合在一起使用，從根本上加快了他們的概念藝術過程，只需一天就可以創建一個以前需要長達 3 周才能創作出來的圖像。

首先，他們的遊戲設計師利用 Midjourney 去探索不同的理念，並創造出他們認為有靈感的圖像。這些被交給專業的原畫設計師，他們將這些圖像組裝在一起，並繪製出一個連貫的圖像，然後將其輸入 Stable Diffusion，創造出一系列風格變體。然後他們從 Stable Diffusion 的圖像中選擇一個，手動進行一些編輯，然後重複這個過程，直到他們對結果滿意為止。

最後，再把這個圖像傳回 Stable Diffusion，以進行「升級」，創建最終的藝術作品。

2D藝術作品

一些工作室已經開始嘗試使用同樣的工具，來製作遊戲內部的美術作品。例如，Albert Bozesan 有一個關於使用 Stable Diffusion 創建遊戲內部 2D 資產的教程。

3D作品

3D 資產是所有現代遊戲以及即將到來的元宇宙的基石。虛擬世界或遊戲關卡本質上只是 3D 資產的集合，透過放置和修改來填充環境。然而，創建 3D 資產比創建 2D 圖像更複雜，涉及多個步驟，包括創建 3D 模型和添加紋理及效果。對於動畫角色，這還包括創建內部「骨架」，然後在骨架上創建動畫。

在 3D 資產創造過程的每個階段，包括模型創建、角色動畫和關卡製作，我們都看到了不同的初創公司。然而，這還不是一個已經解決的問題，目前還沒有一種解決方案可以完全整合到遊戲製作中。

3D 資產

試圖解決 3D 模型創建問題的初創公司包括 Kaedim、Mirage 和 Hypothetic。更大的公司也在關注這個問題，包括Nvidia的 Get3D 和Autodesk的 ClipForge。Kaedim 和 Get3d 專注於圖像到 3D，ClipForge 和 Mirage 專注于文本到 3D，而 Hypothetic 對文本到 3D 和圖像到 3D 都感興趣。

3D 紋理

一個 3D 模型只有應用到網格的紋理或材料上看起來才真實。決定在一個中世紀的城堡模型上使用哪種長滿青苔的風化石紋理，可以完全改變一個場景的外觀和感覺。紋理包含關於光對材料的反應的中繼資料（即粗糙度、光澤度等）。允許美術人員根據文本或圖像提示輕鬆生成紋理，將極大地提高創作過程中的反覆運算速度。包括 BariumAI、Ponzu 和 ArmorLab 在內的幾個團隊正在尋求相關機會。

動畫

製作優秀的動畫是遊戲製作過程中最耗時、最昂貴、最需要技巧的部分之一。一種降低成本並創造更逼真動畫的方法是使用動作捕捉，在這種方法中，你需要讓演員或舞者穿上動作捕捉套裝，並記錄他們在特殊儀器動作捕捉舞臺上的動作。

我們現在看到的生成式人工智慧模型，可以直接從影片中捕獲動畫。這種方法是更有效的，因為它不需要昂貴的動作捕捉設備，因為這意味著你可以從現有的影片中捕捉動畫。這些模型的另一個令人興奮的方面是，它們也可以用來對現有的動畫進行過濾，例如使動畫人物看起來是喝醉了，或老了，或高興了。進軍這一領域的公司包括 Kinetix、DeepMotion、RADiCAL、Move Ai 和 Plask。

關卡設計和遊戲世界構建

遊戲創作中最耗時的環節之一是構建遊戲世界，生成式人工智慧應該非常適合完成這一任務。像「我的世界」、「無人深空」和「暗黑破壞神」這樣的遊戲都是以使用程式技術生成關卡而聞名的，在這些遊戲中，關卡是隨機創建的，每次都不同，但會遵循關卡設計師制定的規則。新的 Unreal 5 遊戲引擎的一大賣點是，它收集了用於開放世界設計的程式化工具。

我們已經在這一領域看到了一些創舉，如 Promethean、MLXAR 或 Meta 的 Builder Bot，並認為生成技術在很大程度上取代程式技術只是時間問題。這一領域的學術研究已經有一段時間了，包括「我的世界」（Minecraft）的生成技術或「毀滅戰士」（Doom）的關卡設計。

期待生成式人工智慧工具用於關卡設計的另一個令人信服的理由，是能夠創造不同風格的關卡和世界。你可以想像使用工具生成一個 20 世紀 20 年代摩登時代的紐約世界，或者是神秘的刀鋒戰士式的未來世界，或者是托爾金式的幻想世界。

輸入「……風格的遊戲關卡」作為提示，我們在 Midjourney 生成了以下畫面。

▲ 輸入「……風格的遊戲關卡」作為提示，在 Midjourney 生成的畫面。圖片來源：a16z.com

音訊

聲音和音樂是遊戲體驗的重要組成部分。我們已經開始看到一些公司使用生成式人工智慧來生成音訊了。

音效

對於人工智慧來說，音效是一個很有吸引力的開放領域。已經有學術論文在探索使用 AI 在電影中產生各種音效的想法，如腳步聲，但在遊戲中還很少有商業產品。

我們認為這只是一個時間問題，因為遊戲的互動性使得生成式人工智慧成為一個明顯的應用工具，既可以在製作過程中創建靜態音效，也可以在運行時創建即時互動音效。

考慮一下像為玩家角色生成腳步聲這樣簡單的事情。大多數遊戲透過加入少量預先錄製好的腳步聲來解決這一問題，如在草地上行走，在礫石上行走，在草地上奔跑，在礫石上奔跑，等等。這些聲音的產生和管理都很繁瑣，而且在運行時聽起來重複且不真實。

一個更好的方法是為擬音音效建立一個即時生成AI模型，它可以生成適當的音效，每次都略有不同，對遊戲參數（如地面、角色重量、步態、鞋類等）做出反應。

音樂

音樂一直是遊戲的一大挑戰。音樂很重要，因為它可以幫助設定情感基調，就像在電影或電視中一樣，但由於遊戲可能持續數百甚至數千小時，所以它很快就會變得重複或煩人。此外，由於遊戲的互動性，音樂很難在特定時間精確匹配螢幕上發生的事情。

20 多年來，自我調整音樂一直是遊戲音訊領域的一個主題，可以一直追溯到微軟的「DirectMusic」系統，用於創建互動式音樂。DirectMusic 一直未被廣泛採用，很大程度上是因為這種格式很難作曲。只有少數遊戲，如 Monolith 的「無人生還」創造了真正的互動配樂。

現在我們看到許多公司都在嘗試創造AI產生的音樂，如 Soundful、Musico、Harmonai、Infinite Album 和 Aiva。雖然現在的一些工具，如 Open AI 的 Jukebox，運算量很高，不能即時運行，但一旦初始模型建立起來，大多數工具都可以即時運行。

語音和對話

有很多公司都在努力為遊戲角色創造逼真的聲音。鑒於透過語音合成讓電腦發聲有著悠久歷史，所以這並不令人驚訝。這一領域的公司包括 Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai，還有很多其他公司。

使用生成式人工智慧進行語音處理有很多優勢，這在一定程度上解釋了為什麼這個領域如此擁擠。

通常情況下，遊戲中的語音都是由配音演員預先錄製的，但這些僅限於預先錄製的話語。有了生成式人工智慧對話，角色可以說任何話語，這意味著他們可以完全對玩家的行為做出反應。結合更智慧的 NPC 人工智慧模型（超出了本文的範圍，但目前是一個同樣令人興奮的創新領域），完全可以回應玩家的遊戲很快就會出現。
許多玩家希望扮演與他們的現實世界身份幾乎沒有相似之處的幻想人物。然而，一旦玩家用自己的聲音說話，這種幻想就會破滅。使用與玩家角色匹配的生成聲音，可以維持這種幻覺。
在產生語音時，你可以控制聲音的細微差別，如音色、語調轉折、情感共鳴、音素長度、口音等等。
允許將對話翻譯成任何語言，並以相同的聲音說話。像 Deepdub 這樣的公司特別關注這個細分市場。

NPC 或玩家角色

許多初創公司都在考慮使用生成式人工智慧，來創建可以與玩家互動的可信角色，部分原因是，這是一個在遊戲之外具有廣泛適用性的市場，比如虛擬助理或接待員。

創造可信角色的努力可以追溯到人工智慧研究的開始。事實上，人工智慧的經典「圖靈測試」的定義是，人類應該無法區分到底是在與人工智慧對話，還是在與人類對話。

在這一點上，有數百家公司正在開發通用聊天機器人，其中許多是由 GPT-3 之類的語言模型支援的。還有一小部分人專門為了娛樂目的而開發了聊天機器人，比如 Replika 和 Anima，他們試圖建立虛擬朋友。

我們現在看到了這些聊天機器人平臺的下一個反覆運算，如 Charisma.ai、Convai.com 或 Inworld.ai，這些工具旨在支持完全算繪的 3D 角色，帶有情感和代理權。如果它們能夠融入遊戲中，或者能夠推動劇情向前發展，而不是純粹作為擺設，那麼這點便非常重要。

一體化平臺

最成功的生成式人工智慧工具之一是 Runwayml.com，因為它將廣泛的創建者工具套件集於一身。目前還沒有這樣的平臺為電子遊戲服務，我們認為這是一個被忽視的機會。我們願意投資於具有以下特點的解決方案：

全套生成式人工智慧工具，覆蓋整個製作流程。（程式碼、資產產生、紋理、音訊、描述等）
與 Unreal 和 Unity 等流行遊戲引擎緊密整合。
設計適合典型的遊戲製作流程。

結語

現在是成為遊戲創造者的絕佳時機！由於有本文中所描述的工具，產生遊戲所需的內容變得前所未有的簡單，即使你的遊戲有整個星球那麼大！

甚至有一天，我們可以想像出一款完全個性化的遊戲，完全根據玩家的需求為他們量身打造。這在科幻小說中已經存在很長一段時間了，比如《戰爭遊戲》中的「AI 心理遊戲」，或者《星際奇航》中的全像甲板。隨著這篇文章中所描述的工具的快速發展，不難想像，這一現實可能近在咫尺。