FB 建議貼文

選取貼文複製成功(包含文章連結)!

Meta 推出「V-JEPA 2」世界模型AI:讓機器真正理解現實世界的物理規則

Meta 推出「V-JEPA 2」世界模型AI:讓機器真正理解現實世界的物理規則

Meta(Facebook 母公司)在本週三宣布推出全新 AI 模型「V-JEPA 2」,主打能更精確理解三維空間與物體動態。這套模型是所謂的「世界模型」(world model),意即能仿照物理世界的邏輯,構建一套對現實的內在模擬架構,讓 AI 學習與思考方式更接近人類。

Meta 表示,V-JEPA 2 能理解如「球從桌上滾下會掉到地上」這種因果關係,甚至能推論視線之外的物體仍存在,並未「憑空消失」。這類能力對機器人與自駕車等須在現實中導航的裝置至關重要。

Meta 表示,V-JEPA 2 是為了幫助機器人與 AI 智慧代理(agent)在真實環境中「行動前先思考」而設計,這是邁向「進階機器智慧(Advanced Machine Intelligence, AMI)」的關鍵一步。

世界模型讓 AI 具備「物理直覺」

人類可以預測物體的移動與互動,例如知道網球拋上去會因重力落下、走在擁擠空間會自動閃避、打冰球時會滑向預測中的落點。這些判斷能力來自我們對世界的觀察與內在建模。

V-JEPA 2 就是為了模仿這種人類的「物理直覺」,並具備三大能力:

  1. 理解(understanding):掌握環境中物體與人之間的互動。

  2. 預測(predicting):預測特定動作可能產生的結果。

  3. 規劃(planning):設計出實現任務的行動流程。

Meta 推出「V-JEPA 2」世界模型AI:讓機器真正理解現實世界的物理規則

影片訓練,強化對真實世界的掌握

這套模型是在大量影片資料上訓練而成,幫助 AI 學習人與物之間的互動模式,例如物體如何移動、碰撞或反應。

Meta 指出,當 V-JEPA 2 被應用於自家實驗室的機器人時,這些機器人能夠完成如「伸手拿取物品」或「搬運並重新擺放物體」等任務,展現出其對未知物件與空間的適應能力。

與傳統依賴大量標註資料或影片訓練的模型不同,V-JEPA 2 採用在「潛在空間」(latent space)中進行推理的方式。這種方式不需具體影片影格來學習動作,而是抽象地理解物體如何互動、變化與回饋。

Meta 推出「V-JEPA 2」世界模型AI:讓機器真正理解現實世界的物理規則

Meta 首席 AI 科學家楊立昆(Yann LeCun)在巴黎 Viva Tech 大會的影片演講中指出:「讓機器理解世界的物理結構,和理解語言是完全不同的任務。」他認為世界模型如同現實的「數位雙生體」,讓 AI 能預測自身行為的結果,並規劃達成任務的步驟。

Meta 執行長馬克・祖克柏(Mark Zuckerberg)一直視 AI 為公司發展的核心,而面對 OpenAI、Google、微軟等對手加速推進,他們也急需擁有獨特價值的 AI 技術,來鞏固競爭優勢。

世界模型成新焦點,從語言轉向現實推理

在生成式 AI(如 ChatGPT 或 Google Gemini)帶起風潮後,業界對下一階段發展的想像已逐漸從「語言理解」轉向「現實理解」。這也讓「世界模型」成為 AI 社群討論的焦點。

例如,AI 大咖李飛飛去年創辦的 World Labs 成功募資 2.3 億美元(約新台幣 74 億元),正致力於開發能理解物理世界架構的大型世界模型(Large World Models);Google DeepMind 則推出名為 Genie 的模型,可即時模擬遊戲與三維環境。

整體來看,世界模型的核心價值在於讓 AI 具備「內在物理邏輯」,而不只是語言模擬器。這或許正是下一波 AI 技術創新與應用落地的關鍵路徑。

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則