騰訊開源 HunyuanWorld-Voyager：一張圖片就能生成 3D 場景與移動視角影片 | T客邦

半導體/電子產業 5G/網路 AI/大數據電動車/交通

加密貨幣/區塊鏈遊戲/電競雲端/資訊安全商業/金融

尖端科技 3C新品趨勢

抽獎/得獎公告體驗試玩活動課程講座

騰訊開源 HunyuanWorld-Voyager：一張圖片就能生成 3D 場景與移動視角影片

中國科技大廠騰訊在 GitHub 上公開了全新的 AI 框架 HunyuanWorld-Voyager，能從單張圖片生成具一致性的 3D 場景，並且在該場景中製作鏡頭移動的影片。

來自 10 萬筆影片訓練的 AI 模型

HunyuanWorld-Voyager 採用自動化的重建流程，結合 相機姿態估計 與 深度預測，訓練數據來自真實拍攝影像與 Unreal Engine 合成畫面，總計超過 10 萬段影片。

其架構包含兩大核心：

依輸入圖片生成 RGB 與深度對齊的影片序列，確保場景一致性。
透過自回歸推論與平滑取樣，實現具上下文的場景擴充與不必要點的移除。

因此，模型不僅能從單張圖片推導出合理的 3D 場景，還能生成移動視角的影片，甚至可重建 3D 點雲（point cloud）。

成果展示：從靜態圖到動態 3D

在 GitHub 上，騰訊公開了多個實例：

使用者輸入一張靜態圖片，系統能生成一段鏡頭在 3D 場景中移動的影片。
鏡頭路徑可由使用者指定，影片效果近似遊戲引擎內的場景探索。
生成的影片還能進一步轉換為 3D 點雲，儘管粗糙，但能清楚看出場景深度與立體感。

#人工智慧 #ai

送【10個ChatGPT的好工具】電子書 Line brand icon

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則