FB 建議貼文

選取貼文複製成功(包含文章連結)!

騰訊開源 HunyuanWorld-Voyager:一張圖片就能生成 3D 場景與移動視角影片

騰訊開源 HunyuanWorld-Voyager:一張圖片就能生成 3D 場景與移動視角影片

中國科技大廠 騰訊 在 GitHub 上公開了全新的 AI 框架 HunyuanWorld-Voyager,能從單張圖片生成具一致性的 3D 場景,並且在該場景中製作鏡頭移動的影片。

騰訊開源 HunyuanWorld-Voyager:一張圖片就能生成 3D 場景與移動視角影片

來自 10 萬筆影片訓練的 AI 模型

HunyuanWorld-Voyager 採用自動化的重建流程,結合 相機姿態估計深度預測,訓練數據來自真實拍攝影像與 Unreal Engine 合成畫面,總計超過 10 萬段影片

其架構包含兩大核心:

  1. 依輸入圖片生成 RGB 與深度對齊的影片序列,確保場景一致性。

  2. 透過自回歸推論與平滑取樣,實現具上下文的場景擴充與不必要點的移除。

因此,模型不僅能從單張圖片推導出合理的 3D 場景,還能生成移動視角的影片,甚至可重建 3D 點雲(point cloud)

騰訊開源 HunyuanWorld-Voyager:一張圖片就能生成 3D 場景與移動視角影片

騰訊開源 HunyuanWorld-Voyager:一張圖片就能生成 3D 場景與移動視角影片

騰訊開源 HunyuanWorld-Voyager:一張圖片就能生成 3D 場景與移動視角影片

成果展示:從靜態圖到動態 3D

在 GitHub 上,騰訊公開了多個實例:

  • 使用者輸入一張靜態圖片,系統能生成一段鏡頭在 3D 場景中移動的影片。

  • 鏡頭路徑可由使用者指定,影片效果近似遊戲引擎內的場景探索。

  • 生成的影片還能進一步轉換為 3D 點雲,儘管粗糙,但能清楚看出場景深度與立體感。

 

騰訊開源 HunyuanWorld-Voyager:一張圖片就能生成 3D 場景與移動視角影片

騰訊開源 HunyuanWorld-Voyager:一張圖片就能生成 3D 場景與移動視角影片

 

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則