
中國科技大廠 騰訊 在 GitHub 上公開了全新的 AI 框架 HunyuanWorld-Voyager,能從單張圖片生成具一致性的 3D 場景,並且在該場景中製作鏡頭移動的影片。
來自 10 萬筆影片訓練的 AI 模型
HunyuanWorld-Voyager 採用自動化的重建流程,結合 相機姿態估計 與 深度預測,訓練數據來自真實拍攝影像與 Unreal Engine 合成畫面,總計超過 10 萬段影片。
其架構包含兩大核心:
-
依輸入圖片生成 RGB 與深度對齊的影片序列,確保場景一致性。
-
透過自回歸推論與平滑取樣,實現具上下文的場景擴充與不必要點的移除。
因此,模型不僅能從單張圖片推導出合理的 3D 場景,還能生成移動視角的影片,甚至可重建 3D 點雲(point cloud)。
成果展示:從靜態圖到動態 3D
在 GitHub 上,騰訊公開了多個實例:
-
使用者輸入一張靜態圖片,系統能生成一段鏡頭在 3D 場景中移動的影片。
-
鏡頭路徑可由使用者指定,影片效果近似遊戲引擎內的場景探索。
-
生成的影片還能進一步轉換為 3D 點雲,儘管粗糙,但能清楚看出場景深度與立體感。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!