Stability AI 新模型 Stable Video 3D:可從單張圖片生成 360° 無死角及 3D 影片

Stability AI 新模型 Stable Video 3D:可從單張圖片生成 360° 無死角及 3D 影片

Stability AI 釋出新模型 Stable Video 3D(SV3D),可以透過單張照片生成出 360°環繞視角的軌道影片(orbital videos),以及在指定的攝像機路徑上創建 3D 影片,影片的品質與視角一致性都有大幅提升。Stable Video 3D 現在可以透過 Stability AI 會員資格用於商業目的。對於非商業用途,則可以在 Hugging Face 上下載模型權重並參考其研究論文

Stable Video 3D:透過單張圖生成多視角、3D 影片

SV3D 是基於 Stable Video Diffusion 的生成模型,包含 2 的變體,SV3D_u 及 SV3D_p。

  • SV3D_u:可根據單張圖片生成出軌道影片,不用再另外設定攝影機參數等條件。
  • SV3D_p:擴展 SV3D_u 功能,利用單張圖片及軌道視角,從而生成出在指定攝影機路徑上的 3D 影片。

SV3D 可透過輸入單一物件影像,輸出該物件的新穎的多視圖再利用這些視圖生成 3D 影片。

官方表示,與先前的 Stable Zero123 相比,SV3D 不僅提供多視角及提高品質,同時也優於其他開源替代方案,如 Zero123-XL。

Stability AI 新模型 Stable Video 3D:可從單張圖片生成 360° 無死角及 3D 影片

可進行新視角合成,同時確保多視角的外觀一致性

不同於先前常常受限於視角和輸出不一致性的方法,SV3D 的新視角合成(novel view synthesis, NVS)能夠以熟練的泛化能力,從任何角度提供一致的視角,不僅增強姿勢控制性,還能確保物體在多個視角下的外觀一致性,進一步提高真實和準確 3D 生成的關鍵方面。

使用 SV3D 獲得的 3D 網格結果,與 EscherNet 和 Stable Zero123 生成的輸出進行比較。

另外,為了改善直接從新視角生成的 3D 網格的品質,Stability AI 設計了一種新的遮罩分數蒸餾抽樣損失函數(Masked Score Distillation Sampling Loss),以進一步提高在預測視圖中不可見區域的 3D 品質;還採用解耦光照最佳化(Disentangled Illumination Optimization)減少固定照明的問題。

Stability AI 會員可使用 SV3D 進行商業用途,而非會員則可以在開源社群平台 Hugging Face 上下載模型權重,及查看公開的研究論文

資料來源:Stability AI

ycr
作者

PC home雜誌、T客邦產業編輯,也負責T客邦影新聞YouTube頻道。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則