
Google DeepMind 宣布推出 Genie 3,這是一個通用的世界模型,能夠生成前所未有的多元互動環境。使用者只需提供文字提示,Genie 3 就能即時生成動態世界,並以每秒 24 幀、720p 的解析度供您探索,同時在數分鐘內保持內容的一致性。
模擬世界的能力
Genie 3 的核心能力是根據純文字提示即時生成動態世界,模擬各類場景的物理特性與互動行為。這些世界可以涵蓋自然現象、生態環境、虛構動畫、歷史場景等,應用範圍從教育、娛樂、到代理程式訓練皆具潛力。
-
模擬物理與自然現象:Genie 3 能模擬水流、光影等自然現象,並生成充滿活力的生態系統,如精細的植物生命與動物行為。
-
創造虛構與歷史場景:激發使用者想像力,創造奇幻世界、動畫角色,甚至能帶領使用者探索不同地點與歷史場景,實現跨越時空的體驗。
-
長時間維持環境一致性:為了提供沉浸式體驗,Genie 3 克服了長時間生成中誤差累積的挑戰,其生成的環境能在數分鐘內保持高度一致性,並具備長達一分鐘的視覺記憶。Genie 3 在每一幀的生成過程中,需即時回顧先前的互動軌跡,即便使用者在一分鐘後重返場景,模型仍能參考過去資訊維持場景一致。
-
可觸發的世界事件:除了基本的導航,Genie 3 還支援基於文字的「世界事件」功能。使用者可以輸入指令,改變天氣、引入新物件或角色,讓世界產生實質變化。
即時互動與一致性
在 Genie 1 與 Genie 2 的基礎上,Genie 3 實現了突破性的即時互動能力。這款模型不僅在內容一致性與視覺真實性上超越前代版本,還與 Google 的影片生成模型 Veo 2 和 Veo 3 產生協同效應,展現出對「直覺物理學」的深刻理解。
Genie 3 能夠在每秒多次的運算中,即時回應使用者輸入,動態更新畫面內容,同時維持數分鐘內的物理與視覺一致性,有效避免自我迴歸生成過程中常見的誤差累積與內容崩壞問題。與依賴明確 3D 結構的 NeRFs 或 Gaussian Splatting 方法不同,Genie 3 採用逐幀自我迴歸生成的方式打造世界,內容更具靈活性與表現力。
不過,Google 也指出,儘管 Genie 3 在生成式互動技術上已邁出關鍵一步,仍存在一些限制。例如:代理程式可執行的動作仍然有限,對多代理間複雜互動的模擬仍是當前研究中的挑戰之一,模型也無法準確重現真實地理位置。此外,畫面中的文字呈現仍存在清晰度不一的情況,除非特別指定,否則難以穩定生成;而在互動時長方面,目前僅支援數分鐘的連續體驗,尚未達到長時間模擬的標準。
通往世界模型的未來
Google DeepMind 表示,世界模型也是通往通用人工智慧(AGI)的關鍵一步,因為它們能讓 AI 代理程式在豐富且無限的模擬環境課程中進行訓練。
Google DeepMind 承諾將持續以負責任的方式開發這項技術。目前,Genie 3 已以「有限研究預覽」的形式提供給少數學者和創作者,以期在技術開發初期就能收集關鍵回饋。Google 認為,Genie 3 將對 AI 研究和生成式媒體產生深遠影響,未來可能應用於教育、機器人訓練與自動駕駛系統等領域。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!