Google 推出 Genie 3 世界模型，一句提示就能生成可即時互動的虛擬場景 | T客邦

半導體/電子產業 5G/網路 AI/大數據電動車/交通

加密貨幣/區塊鏈遊戲/電競雲端/資訊安全商業/金融

尖端科技 3C新品趨勢

抽獎/得獎公告體驗試玩活動課程講座

Google 推出 Genie 3 世界模型，一句提示就能生成可即時互動的虛擬場景

Google DeepMind 宣布推出 Genie 3，這是一個通用的世界模型，能夠生成前所未有的多元互動環境。使用者只需提供文字提示，Genie 3 就能即時生成動態世界，並以每秒 24 幀、720p 的解析度供用戶探索，同時在數分鐘內保持內容的一致性。

模擬世界的能力

Genie 3 的核心能力是根據純文字提示即時生成動態世界，模擬各類場景的物理特性與互動行為。這些世界可以涵蓋自然現象、生態環境、虛構動畫、歷史場景等，應用範圍從教育、娛樂、到代理程式訓練皆具潛力。

模擬物理與自然現象：Genie 3 能模擬水流、光影等自然現象，並生成充滿活力的生態系統，如精細的植物生命與動物行為。
創造虛構與歷史場景：激發使用者想像力，創造奇幻世界、動畫角色，甚至能帶領使用者探索不同地點與歷史場景，實現跨越時空的體驗。
長時間維持環境一致性：為了提供沉浸式體驗，Genie 3 克服了長時間生成中誤差累積的挑戰，其生成的環境能在數分鐘內保持高度一致性，並具備長達一分鐘的視覺記憶。Genie 3 在每一幀的生成過程中，需即時回顧先前的互動軌跡，即便使用者在一分鐘後重返場景，模型仍能參考過去資訊維持場景一致。
可觸發的世界事件：除了基本的導航，Genie 3 還支援基於文字的「世界事件」功能。使用者可以輸入指令，改變天氣、引入新物件或角色，讓世界產生實質變化。

即時互動與一致性

在 Genie 1 與 Genie 2 的基礎上，Genie 3 實現了突破性的即時互動能力。這款模型不僅在內容一致性與視覺真實性上超越前代版本，還與 Google 的影片生成模型 Veo 2 和 Veo 3 產生協同效應，展現出對「直覺物理學」的深刻理解。

Genie 3 能夠在每秒多次的運算中，即時回應使用者輸入，動態更新畫面內容，同時維持數分鐘內的物理與視覺一致性，有效避免自我迴歸生成過程中常見的誤差累積與內容崩壞問題。與依賴明確 3D 結構的 NeRFs 或 Gaussian Splatting 方法不同，Genie 3 採用逐幀自我迴歸生成的方式打造世界，內容更具靈活性與表現力。

不過，Google 也指出，儘管 Genie 3 在生成式互動技術上已邁出關鍵一步，仍存在一些限制。例如：代理程式可執行的動作仍然有限，對多代理間複雜互動的模擬仍是當前研究中的挑戰之一，模型也無法準確重現真實地理位置。此外，畫面中的文字呈現仍存在清晰度不一的情況，除非特別指定，否則難以穩定生成；而在互動時長方面，目前僅支援數分鐘的連續體驗，尚未達到長時間模擬的標準。

通往世界模型的未來

Google DeepMind 表示，世界模型也是通往通用人工智慧（AGI）的關鍵一步，因為它們能讓 AI 代理程式在豐富且無限的模擬環境課程中進行訓練。

Google DeepMind 承諾將持續以負責任的方式開發這項技術。目前，Genie 3 已以「有限研究預覽」的形式提供給少數學者和創作者，以期在技術開發初期就能收集關鍵回饋。Google 認為，Genie 3 將對 AI 研究和生成式媒體產生深遠影響，未來可能應用於教育、機器人訓練與自動駕駛系統等領域。

延伸閱讀：DeepMind發佈Genie 2「基礎世界模型」，單圖可生成1分鐘3D遊戲世界
延伸閱讀：Meta 推出「V-JEPA 2」世界模型AI：讓機器真正理解現實世界的物理規則

#Google #人工智慧 #ai #google deepmind #genie 3 #世界模型

送【10個ChatGPT的好工具】電子書 Line brand icon

謹慎發言，尊重彼此。按此展開留言規則