Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

ADVERTISEMENT

Stable Diffusion官方終於進展到影片了——

發表生成式影片模型Stable Video Diffusion(SVD)。

Introducing Stable Video Diffusion

Stability AI官方部落格顯示,全新SVD支援文字到影片、圖像到影片的繪製: 

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

並且還支援物體從單一視角到多視角的轉化,也就是3D合成: 

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

根據外部評估,官方宣稱SVD甚至比runway和Pika的影片生成AI更受使用者歡迎。 

雖然目前只發表了基礎模型,但官方透露「正計畫繼續擴充,建立類似於Stable Diffusion的生態系統」。 

目前論文程式碼權重已上線。

論文連結:Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

 

最近影片生成領域不斷出現新玩法,這次輪到Stable Diffusion出招,以至於網友們的第一反應就是「快」,進步太快! 

但僅從Demo效果來說,更多網友們表示並沒有感到很驚喜。 

雖然我喜歡SD,而且這些Demo也很棒……但也存在一些缺陷,光影不對、而且整體不連貫(影片格與格之間閃爍)。

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

但整體來說這是個開始,網友對SVD的3D合成功能還滿是看好: 

我敢打賭,很快就會有更好的東西出來,到時候只要描述一下,就會得到一個完整的3D場景。

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

SD影片官方版來襲

除了上面展示的,官方還發表了更多Demo: Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

太空漫步

背景不動,只讓兩隻鳥動也可以

SVD的研究論文目前也已發表,據介紹SVD基於Stable Diffusion 2.1,用約6億個樣本的影片資料集預訓練了基礎模型。 

可輕鬆適應各種下游任務,包括透過對多視圖資料集進行微調從單個圖像進行多視圖合成。 

微調後,官方公布的是兩種圖像到影片模型,可以以每秒3到30影格之間的自訂畫面播放速率生成14(SVD)和25影格(SVD-XT)的影片:

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

之後又微調了多視角影片生成模型,叫做SVD-MV:

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

根據測試結果,在GSO資料集上,SVD-MV得分優於多視角生成模型Zero123、Zero123XL、SyncDreamer:

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

值得一提的是,Stability AI表示SVD目前僅限於研究,不適用於實際或商業應用。SVD目前也不是所有人都可以使用,但已開放使用者候補名單註冊。 

影片生成大爆發

最近影片生成領域呈現出現「混戰」的局面。 

前有PikaLabs開發的文字生影片AI:

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製 

後又有號稱史上最強大的影片生成AIMoonvalley推出: 

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

最近Gen-2的「運動筆刷」功能也正式上線,指到哪畫哪 

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

現在SVD又出現了。 

但文本到3D生成方面好像還沒有太多進展,網友對這一現象也很是困惑。

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

有人認為資料是阻礙發展的瓶頸:

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

還有網友表示原因在於強化學習還不夠強:

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

 

 

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則