Sora 證明馬斯克是對的！特斯拉與OpenAI如何嘗試讓AI從影片生成到理解真實世界

Sora 推出，馬斯克可能是心情最複雜的一個。不僅因為其本人與 OpenAI 早年的糾葛，更因為 Sora 實現的其實是特斯拉早幾年間一直在探索的方向。

2 月 18 日，馬斯克在科技主播 @Dr.KnowItAll 一條主題為「OpenAI 的重量級炸彈證實了特斯拉的理論」的影片下留言，稱「特斯拉已經能夠用精確物理原理製作真實世界影片大約一年了」。

隨後他在 X 上轉發了一條 2023 年的影片，內容是特斯拉自動駕駛總監艾蕭克·艾露史瓦密（Ashok Elluswamy）向外界介紹特斯拉如何用 AI 模擬真實世界駕駛。影片中，AI 同時生成了七個不同角度的駕駛影片，同時只需要輸入「直行」或者「變換車道」這樣的指令，就能讓這七路影片同步變化。

Tesla generative video from last year
pic.twitter.com/s5ZodFigYe
— Elon Musk (@elonmusk) February 18, 2024

當然，這不意味著特斯拉早在一年前就掌握了 Sora 的技術，畢竟特斯拉的生成技術只用於模擬車輛行駛，而 Sora 能夠處理的環境、場景、Prompt、物理規律等資訊更加複雜，二者在難度上不可同日而語。

但特斯拉 AI 和 Sora 訓練的思考方式是一致的：並不是訓練 AI 如何生成影片，而是訓練 AI 理解和生成一個真實的場景或者世界，影片只是從某一個視角觀察這個場景的一段時空。這是兩家在現有業務上完全不同的公司，以彼此不同的方法來感知真實世界，而他們共同希望通向的，都是 AGI（通用人工智慧），甚至更具體一些，就是具身智慧和智慧體。

理解這個觀點的核心，是理解 OpenAI 為 Sora 賦予的使命，並不只是替代影片生成的創作者，而是將影片生成作為説明 AI 理解真實世界的「模擬器」。如果說特斯拉數以百萬計的車輛仍然需要用「肉身」感受這個世界，那麼 Sora 則是單純依靠資料的輸入，建立起對世界的認知。

▲ OpenAI 官網上，關於 Sora 的這篇研究論文名為《把影片生成模型作為世界模擬器》。請注意「世界模擬器」（world simulators）這個關鍵字，它是比生成影片更關鍵的核心所在。

延伸閱讀：OpenAI 推出AI生成影片模型 Sora：光憑文字無中生有60秒影片，生成內容幾乎如真人實拍

其實，早在特斯拉發佈 FSD V12 的時候，這家以汽車為主要消費產品的人工智慧公司，就已經展示了類似的能力。

如何理解呢？首先，在 FSD V12 上，工程師刪除了超過 30 萬行定義駕駛規則的程式碼，系統將從被「餵食」的駕駛影片中，學習如何應對真實的駕駛場景，而不是像過往那樣，按照寫好的規則，在某個特定場景下執行某一個具體的命令。

當然，和作為「生成式模型」的 Sora 不同，FSD 的目標是實現自動駕駛，所以它並不需要真正生成一個具體的影片。你可以想像成一個人（或者智慧體）正在進行「防禦性駕駛」，基於過往經驗，可以對周圍環境中交通參與者的下一步移動趨勢做出判斷。這個判斷存在在頭腦裡就行了，不需要真正把它畫在紙上。因此，特斯拉的 FSD 也不需要把對未來的想像，生成為一個真實影片，並呈現在車輛的某一個螢幕上。

所以，現在有 OpenAI 和特斯拉兩家完全不同的公司，用截然不同的方式和路徑，實現「透過影片生成，讓 AI 理解物理世界」這個相同的目標。

簡單瞭解一下 Sora 的運行邏輯：OpenAI 表示，Sora 結合了 Transformer 和 Diffusion 兩個過去幾年最重要的模型。ChatGPT、Gemini、LLaMA 等語言模式都是基於 Transformer 模型，它對詞語進行標記，並生成下一個單詞；Diffusion 模型則是「文生圖」的代表。

如果從「理解世界」的角度來審視 Sora，那麼某一影格圖像的畫質、畫面關係絕不是模型品質高低的評判標準，甚至官網釋出的 60 秒一鏡到底影片也不是最核心的部分。重要的是這個生成的影片可以被剪輯——在不同的機位下，無論是廣角、中景、近景、特寫，影片中人物和背景的關係都保持著高度的「一致性」。這才是 Sora 遙遙領先並接近真實的地方。

▲ Sora生成的影片，在不同機位下呈現出的「一致性」。圖片來源：OpenAI官網截圖

延伸閱讀：開發文字生成影片AI模型Sora，OpenAI 就像在對著真實世界比中指

這一點和特斯拉在 FSD 上採取「純視覺」方案可以結合理解。簡單來說，99% 的汽車廠商都會在車輛上保留光學雷達，透過雷射光束的發射和接收，輔助計算周圍物體和車輛間的距離關係。但馬斯克不僅刪除了 30 萬行程式碼，還移除了雷達，只依靠高解析攝影鏡頭搜集和神經網路學習來判斷距離關係。

無論是對特斯拉，還是對 OpenAI，這都是巨大的挑戰。畢竟輸入的畫面是 2D 的，但輸出的結果（無論是駕駛指令還是影片）都需要基於對 3D 世界的深刻理解。

規模和品質是訓練模型的核心。特斯拉的資料來源於真實道路上，搭載了感測器的車輛；而 OpenAI 的大量資料，從目前的公開訊息來看，來源於網路。在品質的維度，在《馬斯克傳》裡，作者華特‧艾薩克森寫道特斯拉透過和 Uber 合作，獲取「五星司機」的素材訓練 FSD；而從規模出發，阿特曼最近希望籌集上兆規模的資金，就是重注算力和規模的具體體現。

▲ 計算資源會直接影響生成的影片品質，從左往右分別是1倍資源、4倍資源、16倍資源的生成效果。圖片來源：影片播客截圖

最後，回到一開始的那個問題，為什麼我們會認為 Sora 和 FSD v12 是相似的？Sora 和 OpenAI 未來的想像空間又是什麼呢？它們和 AGI 又有什麼關係？

在馬斯克看來，當人工智慧可以真正解決一個問題（物理、數學、化學等等）的時候，AGI 就到來了。不過還有另外一個理解維度，那就是具身智慧。畢竟現實世界裡，並不是只有數學公式和文字規則，擁有一定的智商的小貓小狗也可以依靠運動真實地和物理世界進行互動。

這點對於過去只能輸入二維資訊的 AI 來說很難做到。這也是為什麼馬斯克看到 Sora 後在 X 上評價是「GG Humans」，在他看來 Sora 今天做到的，已經打破了過去的次元壁，而能理解真實世界並繼續學習，AI 也就有了更進一步影響真實世界的能力。

而就像特斯拉把這種生成能力用於訓練車輛，Sora 的價值也不僅僅是生成一個難以讓人區分真假的影片，用作影視創作者的生產力工具（儘管這是一個非常困難且剛需的場景）。「Sora 只是小試牛刀，它展現的不僅僅是一個影片製作的能力，而是大模型對真實世界有了理解和模擬之後，會帶來新的成果和突破。」