AI繪圖的下一站是AI影片，AI將如何改變影片創作流程、有哪些技術已經實現？

2022 年至今，人工智慧作為一款強大的創意工具，地位愈來愈穩固。而且人工智慧發展得很快。

文章目錄

1. 第一步：「合成影片」剪輯和工具
2. 這項技術將使你的合成臉變得栩栩如生
- 真實演員的終結？
3. 「深度偽造檢測」的複雜問題和建議的解決方案
- 關於「如何處理深度偽造問題」的粗略建議
4. 人工智慧將如何影響日益增長的「虛擬網紅」運動
- 預測：未來創作者如何製作自己的流行影片
- 觀眾的偏好：人類vs虛擬人物
5. 「互動式合成角色」的美麗新世界
- 這是否意味著所有內容都將是互動性的？
6. 頭戴顯示設備將發揮作用
- 預測：《粉雄救兵》Fab5 虛擬體驗
- 合成人物的互動性
7. 合成影片的長期影響

舉個例子，下圖左邊是生成式人工智慧（GenAI）應用程式 Midjourney 最開始的結果，而右邊是六個月後的結果：

▲ 輸入的提示為：照片，頭髮花白的65歲男子，禿頂，小眼睛，麻子鼻子，看著中畫幅的相機，在地下室，頭頂上有燈光，晚上

延伸閱讀：Bing AI繪圖生成工具「Image Creator」功能上線了！文字詠唱就能變成魔法繪圖師

即使可能不是明天就能實現，但我們使用類似的工具來產生影片（即合成影片，synthetic video）只是一個時間的問題。類似的研究專案已經存在，比如 Meta 的 Make-A-Video 或Google的 Imagen Video，這兩個產品都能製作出不錯的影片。

但這些專案缺少的核心功能是將片段串聯成場景、以建立起一個連貫的敘事的能力。

在這篇文章中，我想探討當這一天來臨的時候會是什麼樣子，以及它對媒體創作的未來意味著什麼，具體包括：

個人影片合成工具將會很快出現
如何構建早期敘事
合成工具將如何影響短影音
讓任何人都能「重塑自己的臉」的技術
關於深度偽造檢測的問題
人工智慧將如何影響日益增長的「虛擬網紅」運動
互動式形象和虛擬實境的發展

這是一篇深入淺出的文章，不可否認，文章中的這些話題都可以單獨發表。但是，我並沒有單獨進行深入研究，而是想為「對人工智慧 X 影片感到好奇」的媒體專業人員提供一個高水準的概述，讓他們瞭解這場巨變帶來的關鍵問題。需要說明的是，我主要關注網路影片，而不是電視和電影。

延伸閱讀：真「形意結合」，AI繪圖 Stable Diffusion加上字形設計模型秒懂圖像生成字形

第一步：「合成影片」剪輯和工具

我們將看到這項技術應用的第一個地方是合成素材。現在Google Imagen Video 製作的影片還處於初級水準。不過，當這種工具廣泛應用時，它將改變影片創作者的遊戲規則。素材庫是一個有用的工具，但它可能需要大量的搜尋，即使這樣，你也很少能找到理想的東西。

相反，想像一下，你可以描述自己正在尋找的精確片段（甚至提供相機移動方式、角度、光圈），然後，AI 會直接在你的編輯程式中創建無數的選項，直到你找到完美的素材。

這將產生什麼影響？

像 VOX 和 CNBC 這樣的 Youtubers 和發行商將利用這個工具極大地提高其視覺品質。我們可能還會看到由此產生新的編輯格式。
品牌方會將其作為一種更經濟的方式來創建社會熱點，甚至可能用來創作廣告。
這個工具將允許有影響力的人創造更廣泛的內容，讓新人更容易進入影片創作領域。我們甚至可能看到完全由合成剪輯製作的電影。合成剪輯將使所有的網路影片有一個明顯的品質改進。

改進現有工作流的 AI 工具

與此同時，我們將看到大量其他生成式人工智慧工具，它們可以釋放創造力，加快專案速度，並進一步普及創建專業內容的能力。

Runway ML 是一家處於人工智慧和內容交叉領域的初創公司，有望成為這一領域的領跑者。事實上，他們已經開始在現有的、基於網路的影片編輯應用程式中構建人工智慧功能，包括一個神奇的移除和替換工具，稱為影片修補（video inpainting）。

如果編輯器想要刪除滑板影片背景中的一個人，使用者所要做的就是在畫布上標記它。接下來，AI 將移除該區域，然後使用周圍的背景作為參考來填充場景。

而有了影片生成工具之後，你將不僅可以移除場景的一部分，還可以創造新的內容來替換它。

想像一下，你是品牌方，一年前拍攝了一個很好看的影片，但後來更新了包裝。現在有了這個工具，你將能夠快速和經濟地以新換舊，而不需要重新拍攝，或聘請昂貴的視覺特效人員。

我們還會看到另一種工具：影片擴展（video outpainting）

影片擴展可以讓你合成出一個比相機實際拍攝的更寬、更高（或兩者兼而有之）的場景。一個非常簡單的改變是，現在在任何設備上都可以無縫地進行全螢幕播放，不管它是在什麼設備上拍攝的。這意味著垂直手機影片現在將完全匹配寬螢幕，消除目前你經常看到的黑條或鏡像效果。

影片擴展產生的另一個機會是 AutoMagic 綠幕。我們已經看到人工智慧工具解決了影片背景刪除的問題。若將其與影片擴展相結合，你甚至將能夠從手機鏡頭中建立即時的布景和背景。

這類似於日益增長的虛擬製作，這是由迪士尼/ILM 的 Stagecraft 布景等創新所實現的，該布景使用巨大的 LED 牆和遊戲引擎來創造動態背景（即The Volume）。

但主要的區別是，這些新的生成式人工智慧工具不需要大量的工作人員、倉庫布景或 LED 牆，進而節省了大量成本，降低了進入門檻。

▲ 一個將真實物體（本例為汽車）與LED螢幕背景相融合的例子。這與綠幕的一個重要區別是，它允許LED螢幕上的場景光線反射到真實物體上。

在音訊方面，我們現在已經看到了商業上可用的合成音訊（或深度偽造音訊），這是一種訓練並複製某人聲音的能力，可以用某人的聲音說任何話。這一技術受到好萊塢的歡迎，甚至普通消費者也可以使用。

很快就會有無數其他的生成式人工智慧影片工具供我們使用。有了這些工具，我們會看到後期製作團隊承擔更大的責任，讓最終產品變得栩栩如生。從本質上講，編輯也會成為導演……和攝影指導（DP）。

延伸閱讀：從AI繪圖進化到寫真，AI煉丹師是如何一步一步打造出AI美少女夢工廠的？

能夠構建「合成影片敘事」的模型

雖然這些單獨的工具將改變遊戲規則，但它們主要還是用於改進現有的內容。如前所述，我們將看到人們手動將合成片段剪輯成一個有敘事表達的作品。但這一階段將是短暫的，因為人工智慧將能夠把這一過程自動化。

這將透過將影片/音訊模型與大型語言模型（LLMs）相結合來實現，形成所謂的多模態模型（multimodal model）。這一技術基本上是把 ChatGPT 和影片結合起來了。

那麼這個多模態影片工具到底能做什麼呢？一旦你向它提出一個影片的想法，並提供一些標準，它將會：

寫提綱和腳本
為每個場景創建描述，並產生剪輯影片
用你選擇的人類聲音錄製腳本
將配音和剪輯串聯成一個序列，確保所有內容在敘述表達上是一致的。
最後，輸出一個版本供你審核批准。

我們將看到類似 Canva 的應用程式，但這項技術的真正力量將來自於一個強大的工具包，允許在過程的每個階段進行干預。這將為全新的產品系列打開大門，自下而上地重新想像這種創意體驗。

人工智慧將接管短影音領域

雖然我們現在看到的早期生成式人工智慧影片示例傾向於抽象和虛幻的片段，但這些工具也將可以用來創建我們每天在螢幕上看到的那種影片，這只是一個時間問題。

目前的圖像工具，如 Dalle-2 或 Midjourney 都是通用模型，基本上允許你使用工具來創建任何風格的圖像。然而製作影片則更加複雜，早期的影片模型可能是針對特定類別的，因為這樣至少可以產生有意義的結果。

一個可以在早期合成的影片類別是「動手操作類的教程」。為什麼？因為這些影片通常都很「公式化」，而且它們在網路上到處都是，這兩點在訓練AI模型時都非常有用。

網路上目前可能不需要更多的Step by step食譜影片，但很快，幾乎每個人都能製作這些影片了。不過，至少現在做影片時不用浪費食物了。

在早期，我們可能會看到這些模型產生意想不到的聯繫，進而產生奇幻般的食譜影片。或者他們可能會把想法混在一起，產生全新的東西。它們甚至可能開發出更高效的流程。

▲ 5年前，我們曾經嘲笑大型語言模型想出的各種荒謬的食譜。圖片來源：Kaitlyn Jakola

用於商業目的的合成影片

近年來，我們看到自動音訊播放作為網路閱讀的另一種選擇開始興起。合成影片工具很快也能做到這一點，自動為每一篇部落格文章和文章創建影片版本。我們可能還會看到一些公司將他們所有的內容轉換成影片形式。

我們很可能還會看到一鍵式工具能夠自動產生各種格式的內容，也就是從文本產生一切。

想像一下，Hubspot 內容團隊有一個新的主題，他們想要為其創建內容。他們所要做的就是把想法和一些指導方針輸入一個產生器。產生器將為每個平臺和設備構建一個包，其中包括 SEO 性能良好的文章、影片、Podcast和社群發文。當然，該工具已經就 Hubspot 的所有現有內容進行了訓練，因此它創建的所有內容都將符合 Hubspot 的風格和品牌準則。

這種工具甚至可能最終被內建到像 Hootsuite 這樣的內容管理軟體中，這樣一來，從創建到調度再到參與，一切都將自動化。

還有一些工具可以訓練人工智慧模型深入理解特定的產品或服務。除了無數的其他好處（如無限的合成使用者測試），這個工具的合成影片元件還將能夠產生令人難以置信的有效影片解釋，當與 CRM 整合配對時，可以根據受眾細分自動創建個性化內容。

預測：搜尋到影片（Search-to-Video）

這些工具可能會變得非常先進，甚至我們可能會看到完全基於搜尋查詢而創建的定制教學影片。

想像一下，你家用的冰箱不能制冰了。在這種情況下，與其尋找使用者手冊或搜尋 Youtube 影片，不如選擇讓搜尋引擎創建一個影片。這樣一來，該工具將研究關於你特定設備的所有線上資訊，參考論壇和類似的影片，最後根據你的確切設備提供一個定制的影片，而所有這些都不用離開搜尋欄。

目前Google每天有 85 億次搜尋量，其中有多少會在未來變成影片？

深度偽造問題不只是濫用問題

雖然圍繞深度偽造的大部分對話都源於對其可能散播有害虛假資訊的恐懼，但合成影片也會用最看似無害的內容來欺騙我們。例如，巧克力大師阿莫里·吉洪（Amaury Guichon）為我們帶來的藝術構建：

▲ 這些都是由巧克力製作而成的。圖片來源：阿莫里·吉洪（Amaury Guichon）

我們喜歡看這類影片的部分原因是為了窺探那些才華橫溢的人的世界。同樣，想想網上那些滑稽的貓和可愛的狗，美麗的景色，或者令人難以置信的特技影片。這些片段，即使經常出現，也都是真實的。

現在考慮一下合成影片，它將創造出更極端的特技，更可愛的狗，以及更令人難以置信的巧克力模型，這些可能看起來都很真實，但卻不一定遵守物理定律。

與 3D 算繪或動畫不同，我們的大腦無法區分這些合成影片與實際拍攝的影片之間的區別。

延伸閱讀： AI繪圖的10大Q&A：用什麼「繪圖關鍵字」？有哪些繪圖網站?

合成影片應該加浮水印嗎？

觀眾會更喜歡極端的合成影片，還是會更喜歡真實的影片呢？

▲ 圖片由 Midjourney 和 Dalle-2製作而成。

誰有權使用影片片段進行訓練呢？

這些模型既會把新人帶入這個領域，也會被傳統的創作者採用（他們可能別無選擇）。一個關鍵的問題是，那些為模型提供訓練素材的人是否會得到認可、補償，甚至是否會被提及。

我們可能會看到像 BuzzFeed 這樣的公司，透過使用自己的內容庫來建立模型，以此避免這個問題。這些完全自動化的系統對於數位出版商的利潤來說是很好的，但對於公司目前的人力內容團隊來說可能就不是那麼好了。

獨立創作者會作何反應？畢竟，他們已經花了數年時間建立了一個內容庫，並制定了一個商業計畫，以便在未來幾年持續獲得瀏覽量，以及隨之而來的被動收入。

在不久的將來，我們在 24 小時內就可以看到 100 個版本的類似教學影片同時發布，所有這些都在競爭同一個搜尋結果。

在新影片內容的浪潮中（Google伺服器，我希望你已經準備好了），這將如何影響搜尋、頁面設計和發現呢？

希望我們不會讓網紅貓咪們很快失業。但是，影響不僅僅是在教學和網路剪輯上，因為我們很快就會有針對託管/vlog 內容的合成工具。

這項技術將使你的合成臉變得栩栩如生

深度偽造技術與影片合成類似，但有一個重要的區別：我們現在認為的深度偽造（使用一種稱為 GAN 的 ML 框架）需要輸入現有的鏡頭資訊，以便找出如何在上面疊加新的視覺效果。還記得 2018 年瘋傳的歐巴馬深度偽造影片嗎？它就是根據採訪錄影製作的。

我們已經看到了深度偽造的下一步，它以真實的鏡頭為基礎進行訓練，但之後可以完全自動化，就像影片創作初創公司 Synthesia.io 正在做的那樣。下面的角色都是基於真實的人物，但是你可以加入任何想要加入的腳本，讓其看起來就像是他們真的在說一樣。

▲ 圖片來源：Synthesia

Synthesia 中的角色並不完美，有人把它作為恐怖谷理論的一個例子：當人類體驗一個人形機器人時，會有一種不安的感覺，雖然它看起來很接近真實，但顯然不是真人。

有一個團隊可能會破解這個問題，那就是未來的 Meta。它用一個價格實惠的 VR 頭戴顯示器進行即時創建。雖然這種角色化身是為了現場操作，但它也可以用來訓練模型。很快，你就可以戴上頭戴顯示設備，透過一個簡單的過程來閱讀劇本，並提供一系列臉部表情。然後，這些資料將被用於構建一個可以隨時使用的自動臉部版本。我們已經看到了早期的例子，模型被廣泛使用的2D影片片段進行訓練。如果這行得通，人們可以很容易地訓練出一個影片模型，這必將為不受監管的深度偽造打開閘門。

最後的一個尖端應用是，AI 能夠創造出逼真的、不存在的人。像 Unreal 的 Metahumans 這樣的專案已經在向這個方向發展了。

真實演員的終結？

即使有了所有這些功能，我們也可能會看到好萊塢電影公司更容易採用即時表演捕捉技術，就像我們在《阿凡達》中所看到的那樣。

這將使演員們繼續發揮他們的才能，同時也讓製作工作室可以利用新的人工智慧工具。演員們不一定要變成巨大的藍色外星人，相反，他們的化身可能看起來像演員的完美逼真版本，只是最終合成一部電影可能會變得更便宜。希望專業相機製造商也能注意到這一趨勢性轉變（至少佳能似乎正在進軍VR領域）。

詹姆斯·厄爾·瓊斯（James Earl Jones）的聲音將由人工智慧產生，這個消息預示著好萊塢的未來將變得非常非常複雜。

對於我們其他人來說，只需敲擊幾下鍵盤就能讓一個人「活起來」，這將成為常態。從這一點上講，在一個「任何人都可以深度偽裝成別人」的世界裡，我們希望也已經開發出了能夠控制這一切的工具。

「深度偽造檢測」的複雜問題和建議的解決方案

2020 年，Meta 發起了「深度偽造檢測挑戰」（Deepfake），這是一項合作倡議，旨在幫助解決一個「即將成為巨大問題」的問題。現在，各種工具已經開始上線，比如英特爾最近發表的 FakeCatcher。

雖然令人印象深刻，但這類程式目前還遠遠不夠完美，要保持有效，就必須不斷超越我們在合成媒體中看到的創新。但是，如果這種情況發生，還有一個巨大的問題：

Deepfake 檢測工具旨在檢測和阻止這種技術的使用。但問題是，我們正在進入這樣一個世界：深度偽造不僅會被用於惡意的目的，還將成為創造合法合成內容的重要新工具。

建立一個全面的系統來允許經過驗證的內容，同時阻止不良行為者，這個想法似乎過於複雜。我們可能不得不接受這樣一個事實：我們無法阻止任何人創建惡意深度偽造的內容，所以我們應該把精力集中在阻止這類內容上傳到各大平臺上。

像 Youtube 這樣的網站需要在上傳過程中實施平臺自己的 Deepfake 檢測器。但是，有什麼樣的規則去規定什麼是允許的，什麼是不允許的呢？

像將創作者列入白名單，以便他們可以輕鬆地上傳內容，這個過程可能不會太複雜，但還有很多邊緣案例，如一次性的合作，或在無數頻道中大規模上傳內容（如電影預告片）的情況。在一個深度偽造的世界裡，惡搞能否繼續存在，也變得模糊不清。

這也假設了 Deepfake 檢測器總是能正常工作。上述英特爾的 FakeCatcher 聲稱有效率為 96%，考慮到目前 Youtube 上每天數以百萬計的上傳量（預計會急劇增加），那麼每天很容易導致 10 萬個錯誤。

關於「如何處理深度偽造問題」的粗略建議

ChatGPT 的創建者 OpenAI 目前正在考慮在人工智慧創建的文本中加入加密浮水印，以便讀者、搜尋引擎等能夠區分它和人類寫作。類似的過程可以在合成影片中實現，我們可以在影片的中繼資料中嵌入浮水印，與某人的確切肖像相關聯。如果你願意的話，這可以當作是一個「合成護照」（synthetic passport）。那麼，這是如何工作的呢？

任何想要獲得浮水印的人都需要經過驗證過程。這很可能由創建模型並整合到編輯程式中的軟體來完成，可能還需要與政府資料庫同步。

設置完成後，只要某人的合成版本被加到影片中（無論它是由個人還是製作室創建的），匯出影片的唯一方法是經過影片中人的同意，而且它是具有浮水印的版本。

Youtube 將擁有所有這些浮水印的註冊表，以及臉部資料庫，並將在上傳階段掃描整個影片。如果一個人被辨識出有浮水印，Youtube 會通知他們，就像現在版權音樂在該平臺上的運作方式一樣。

▲ 摘自一項關於臉部辨識訓練的研究。圖片來源：Iacopo Masi

任何沒有浮水印的合成影片或鏡頭拍攝的肖像都不會被允許出現在網站上。這也意味著，與現在不同的是，任何人都可以從現有影片中截取一段片段，然後將其加到自己的內容中（這通常屬於合理使用），因為截取的影片不會有浮水印。

雖然這一切看起來都很浪費時間，尤其是對創作者來說，但類似的解決方案可能是必要的，而且可能還有一線希望。這種功能可能會帶來一個全新的市場，比如說讓創作者有一個完整的資產庫，他們之前已經驗證過，並可以進行授權。

或者，協力廠商可能會製作一個合成影片，影片中的人可能沒有參與制作，但當 Youtube 會通知他們時，如果他們喜歡的話，可以批准影片發表。有了浮水印（可以由 web3 技術提供支援），創作者可以很容易地追蹤作品甚至將作品變現。

我第一個承認，這個提議的過程漏洞百出。這只是一次推演，目的是表明這個問題有多麼複雜。我們可能不會得到完美的解決方案，而是會在前進的過程中不斷嘗試修補問題。

希望我們現在討論的是，這一切應該是什麼樣子，進而最大限度地發揮創造力和保護作用。有幾個專注於這個話題的優秀組織，比如 Partnership for AI 和 WITNESS。

人工智慧將如何影響日益增長的「虛擬網紅」運動

在社會弄清如何有效處理深度偽造問題之前，現成的影片合成工具可能就已經出現了。在這一過程中，可能會出現一種相對新的形式，造成「虛擬網紅」的蓬勃發展。

▲ 「虛擬網紅」越來越多，從現實版本的到動畫版本的都有。圖片來源：Virtual Humans

「虛擬網紅」是非人類的，完全由電腦產生的「人」。在過去的幾年裡，我們見證了他們從有趣的藝術實驗，變成了主流的有影響力的行銷參與者，吸引了各大品牌。

品牌喜歡這些「虛擬網紅」，因為公司可以對宣傳過程有更多的控制，進而帶來更好的投資回報率，且風險更小。如今，各公司都更進一步，開始推出自己的產品，普拉達（Prada）去年就重新發佈了此前推出過的 Candy 香水，並採用虛擬人物形象作為該款香水的形象大使，吸引千禧一代的關注。

目前還不清楚這些專案是否能取得成功，就普拉達而言，它並沒有持續圍繞 Candy 構建內容。這可能是因為使用「虛擬網紅」製作影片仍然有些費時費力，因為這通常必須使用先進的軟體。

一旦生成式人工智慧影片工具將這一過程普及化，那麼消費品牌都將能夠輕鬆地建立自己的虛擬形象。這將重塑整個網紅行銷領域。

當然，成功的人類創造者擁有大量且具有黏性的內建使用者，這也是品牌所追求的最終目標。更不用說，他們對有表現的內容有深刻的理解。

但話又說回來，人工智慧增強的影片洞察力，可以直接構建到品牌的合成網紅訓練模型中。再加上更多的行銷費用，你可以想像，品牌自己的網紅最終將與現有的創作者直接競爭。

或者考慮一種新的打造網紅的機構，像這樣的一個團體可以建立一個由數百個虛擬網紅組成的組合，並輕鬆地在這個市場中佔據主導地位。

而且，無論是作為回應，還是為了測試新工具，人類創造者也都不可避免地會構建自己的「虛擬」版本。虛擬形象可以讓人們進入各種其他內容/品牌體驗，比如烹飪課程和健身課程，所有這些都不需要他們在現實生活中做。

預測：未來創作者如何製作自己的流行影片

想像一下，你是一個創造者，從數位助手（一個更智慧、更個性化的 ChatGPT 版本）那裡收到一個通知，它鼓勵你創造作品，你接受了。然後，它會交叉參考所有現有的線上版本，並找出如何將其變成你自己的（同時確保你沒有做過太類似的事情）。在這一點上，它可能會要求你提供一些意見，或者向你展示一些示例，看看你喜歡什麼。然後，助理會做出一個粗略的剪輯，以供你審核批准。當然，你可以對剪輯進行更多操作，增加額外的臺詞，移動鏡頭，更換服裝和背景等。或者，如果你自己很懶，它也可以為你自動創建整個影片。

這樣一來，你不用從沙發上站起來，就能創造出一整個影片。

不過，創作者可能不會在所有事情上都使用這些工具。這些工具可能對潮流影片和教程非常有用，但對更個性化的內容可能並不有效。對於這些類型的影片，創作者可能會想用老辦法來錄製內容。

或者，他們可能仍然會使用自己的虛擬形象，但會進行即時操作。這已經成為一種趨勢，參與這一趨勢的人甚至有了一個名字，VTubers。

這些工具很快就會出現在大眾手中。事實上，索尼剛剛宣布了一款名為 Mocopi 的經濟實惠的運動追蹤系統，將在日本發行，售價約為 400 美元。

▲ 每個設備都安裝在你身體的不同部位，然後將你的動作與虛擬形象進行同步。圖片來源：索尼

觀眾的偏好：人類vs虛擬人物

網紅領域如此成功的部分原因是，觀眾覺得他們可以與另一個真人聯繫起來。真實性一直是這個行業的指導原則。

因此，主流觀眾是否會選擇虛擬網紅而不是人類，這仍然是一個懸而未決的問題。毫無疑問，隨著生成式人工智慧工具讓虛擬網紅運動蓬勃發展，我們將在未來幾年看到對虛擬網紅的考驗。

「互動式合成角色」的美麗新世界

隨著我們進入虛擬世界，現在人人都可以為長相和說話像自己的人創造內容，他們甚至可以像我們一樣思考。

你可能會問我如何將「自己」移植到網際空間，這將是透過一種已經存在的方法，即微調（fine-tuning）。這個過程利用了現有基礎模型的強大功能，然後繼續在更小、更具體的資料集上訓練這個模型。這個過程非常簡單，而且不貴，變得越來越非技術性。

數據究竟從何而來？它會抓取你的簡訊、電子郵件和社群媒體發文。對於 youtube 使用者來說，這還可能包括他們多年來上傳的數千小時的影片。像這樣的工具可能會受到創作者的熱烈歡迎，因為它將為他們開闢一個全新的內容流（和收入流）。

這種方法的文本版本已經存在。最近推出的一個網站 character.ai，利用微調技術創建了「名人聊天機器人」。透過這個工具，你可以和拜登總統或者愛因斯坦交談，就像我最近做的那樣：

▲ 通過 character.ai 與愛因斯坦聊天的示例

下一代的多模態模型將把這些聊天機器人和合成形象整合到一個工具中，這將帶來真正的參與性、互動性的體驗。

這是否意味著所有內容都將是互動性的？

這似乎不太可能。可能有很多時候，人們只是想透過被動的收聽或觀看體驗來放鬆一下，或者他們可能希望兩者都有。

比方說，你正在聽一個Podcast，在採訪過程中出現了一些有趣的東西。你可以打開一個互動模式，讓你加入對話，要求主持人進一步解釋一個話題，或就一個想法向他們提出挑戰。完成後，你點擊一個按鈕，直接切換回預先錄製的劇集。

在一個可以互動的世界裡，製作靜態內容的一個關鍵區別是，每一個新的靜態節目不僅會出現在創作者的庫裡，還會被輸入到互動模式中，構建一個更加動態的體驗。

頭戴顯示設備將發揮作用

雖然會有純音訊和 2D 觀看選項，但許多體驗最終將透過虛擬實境頭戴顯示設備來實現。但這並不意味著我們將永遠生活在虛擬世界裡，而是傾向於讓大眾更經常地參與混合實境環境，這意味著把合成形象帶到我們自己的真實空間裡。

如何做到這一點？現在的頭戴顯示器帶有外鏡頭，可以讓頭戴顯示器「看到」你的環境，也就是 Meta 所說的「場景理解」（Scene Understanding）。軟體會分析並記憶你的空間地圖，然後流暢地將數位物件帶入真實空間。

所以，想像一下和你最喜歡的合成 Twitch Streamer 一起在客廳裡玩，你們倆一起在沙發上玩電子遊戲，一個著名的鋼琴家在聖誕前夜為你的家人表演，或者一個合成瑜伽老師幫你糾正姿勢。在許多這樣的體驗中，我們還將穿著運動感測器和/或觸覺套裝，為應用程式提供有關我們運動的額外資訊。

預測：《粉雄救兵》Fab5 虛擬體驗

想像一下，你戴上頭戴顯示器，然後合成角色出現在你的門口，參觀你的家，坐下來瞭解你。

Bobby 可以引導你瞭解潛在的房間重新設計方案，用新的布局覆蓋你的空間（並帶有產品的推薦連結）。你可以帶著 Tan 瀏覽你的衣櫃，他會給出建議，帶你進行虛擬試穿，然後為你訂購新衣服。然後你可以跳進廚房，和Antoni一起上烹飪課。Jonathan 會為你提出新的髮型建議，並把建議連同優惠券代碼一起發給當地的沙龍。不管是好是壞，想像一下，當廣告品牌能夠看到你家裡的情況時，他們可以進行什麼樣的廣告定位。

這就是這項技術持久力的來源。因為雖然 Fab 5 合成器體驗可能是你只想做一次的事情，但很容易想像，肯定有人會想與像卡拉莫這樣的角色發展一種更有意義的關係。當你遇到問題時，可以和合成版卡拉莫或你最喜歡的 Youtuber 等一起出去玩，一切都隨叫隨到，這可能是令人陶醉的。

合成人物的互動性

這類體驗可能會變得相當個人化。不像電視節目的參與者知道他們的故事會被公之於眾，這裡的參與者可能認為他們有隱私。不過，除非採取措施，否則這些親密時刻可能只會被用於資料收集。

不可避免地，我們會和「合成人」建立聯繫。有些人最終可能會與合成人朋友建立比人類朋友更有意義的關係。事實上，我們已經看到越來越多的人開始與文字聊天機器人建立親密關係。

一個不太可能成為重度使用者的群體是老年人群體。但事實上，目前有臨床治療專案將虛擬實境體驗帶給老年人，研究人員發現這些工具可以改善孤獨感和癡呆症的症狀。

透過一個名為 Hereafter 的服務，我們可以得到已故的人的音訊合成。你可能想知道我們將如何重建某人自己的環境？這可以透過更多令人大開眼界的人工智慧工具實現，比如NVIDIA Instant NERF，它可以讓你從幾張照片中創建沉浸式3D場景。這真的是一項了不起的技術。這個工具需要從多個角度拍攝幾張照片來拼接一個場景，但也有其他工具只需要一張照片就可以構建3D場景。

想像一下，透過翻閱一對夫婦的歷史影集，你可以創建一個他們虛擬的家，或他們去波科諾斯度假的地方。有些人，尤其是在生命的最後階段，寧願花更多的時間在這個數位的第二人生中，而不是在現實世界中。這應該受到阻礙嗎？如果他們得了絕症，會有什麼不同嗎？那麼患有癡呆症的人呢？

通常情況下，我們可能只是圍繞互動式合成內容制定規則，作為對現實世界文化影響的反應。對於如此誘人的技術，這可能是相當有害的。

合成影片的長期影響

雖然互動式 VR 內容在一段時間內可能不會成為常態，但其中一些合成工具將在 2023 年開始出現。

在未來的幾年裡，我們將看到個人和小團隊創造出與大公司的作品相媲美的、令人難以置信的內容。我認為，無論是傳統媒體公司還是新媒體公司，只要有能力訓練自己的模型，都將成為產量驚人的「內容農場」。

對於觀眾來說，這將迎來一個全新的、永久的、越來越多內容的黃金時代。這不僅提供了前所未有的選擇，而且還允許你像外科手術一樣精確地獲得各種可能會深入參與的內容。

人們希望，所有這些工具能催生一個更強大的創意經濟。但是，這波新內容和創作者都將同時爭奪大家的注意力，而人們每天的觀看時間也就那麼幾個小時。

目前能夠帶來可持續廣告收入的瀏覽量/參與度可能會全面下降（更不用說品牌內容領域的整體重組了）。因此，看到內容團隊、Youtube 創作者和影響者在全行業範圍內收縮也就不足為奇了。

人類表演者該怎麼辦？

年輕的表演者可以選擇保持青春永駐，或者讓自己的年齡和外表不斷發生變化，這取決於觀看/與他們互動的觀眾群體。

▲ 提莫西·查拉梅在對著鏡子看。圖片來源：Midjourney

雖然現在的觀眾可能會出於懷舊而繼續看他們最喜歡的人類明星，但在未來的某個時候，觀眾會不會不再關心「甜茶」提莫西·查拉梅，而是喜歡原生合成人呢？

內容的連線性

我記得小時候每天都看《辛普森家庭》，然後第二天在學校和朋友們討論。現在情況不同了。雖然仍有可以抓住新聞週期的大片，但也就紅一段時間，所有平臺上都輪流播放該片的剪輯片段，人們看也看膩了。

但很快，可能就會有太多的內容讓一個單一的專案能夠突破大眾，最終侵蝕掉曾經主流媒體的殘存面貌。

而這甚至是在我們談到個人生成媒體的崛起之前，因為最終，技術會變得非常之好，我們將能夠要求媒體設備創建一整部電影。

你剛剛製作了一部最史詩級的電影，並感到有必要與朋友們分享它。但是當每個專業人士、業餘愛好者和個人都可以在任何給定的時刻做同樣的事情時，誰會有時間去看它呢？

不過我想，仍然會有一群影迷群體因為能夠深入自己所熱愛的世界，而更加緊密地聯繫在一起。現在不僅有無盡的故事情節，而且還有沉浸式互動體驗的能力。

在這些世界裡，我們絕對不會一直和真人互動。似乎不可避免的是，在不久的將來，我們作為一個社會將會提出這樣的問題：如果你可以和一個合成人物建立友誼，並擁有有意義的經歷，那麼「他們是否是真實的」還重要嗎？

真實與否

說到深度偽造，我們可能沒有一個完美的系統，但肯定會有一些東西到位。科技公司擔心有太多的損失，不允許合成影片領域變成「狂野的西部世界」。我想像歐盟這樣的管理機構可能會有更嚴格的規定，使問題進一步複雜化。

整體來說，我們必須意識到自己正在進入一個新時代，在這個時代，我們不能相信自己所看到的任何東西是真實的。這從根本上說並不是壞事，我們只是不得不接受這樣一個事實：雖然有些東西可能不是真實的，但這並不意味著它就不是真的……儘管通常情況下，它也確實可能不是真的。