2023.11.23 09:00

Stable Video Diffusion問世!全新SVD支援文字到影片、圖像到影片的繪製

ADVERTISEMENT

Stable Diffusion官方終於進展到影片了——

發表生成式影片模型Stable Video Diffusion(SVD)。

ADVERTISEMENT

Stability AI官方部落格顯示,全新SVD支援文字到影片、圖像到影片的繪製: 

並且還支援物體從單一視角到多視角的轉化,也就是3D合成: 

ADVERTISEMENT

根據外部評估,官方宣稱SVD甚至比runway和Pika的影片生成AI更受使用者歡迎。 

雖然目前只發表了基礎模型,但官方透露「正計畫繼續擴充,建立類似於Stable Diffusion的生態系統」。 

ADVERTISEMENT

目前論文程式碼權重已上線。

 

ADVERTISEMENT

最近影片生成領域不斷出現新玩法,這次輪到Stable Diffusion出招,以至於網友們的第一反應就是「快」,進步太快! 

但僅從Demo效果來說,更多網友們表示並沒有感到很驚喜。 

雖然我喜歡SD,而且這些Demo也很棒……但也存在一些缺陷,光影不對、而且整體不連貫(影片格與格之間閃爍)。

但整體來說這是個開始,網友對SVD的3D合成功能還滿是看好: 

我敢打賭,很快就會有更好的東西出來,到時候只要描述一下,就會得到一個完整的3D場景。

SD影片官方版來襲

除了上面展示的,官方還發表了更多Demo: 

SVD的研究論文目前也已發表,據介紹SVD基於Stable Diffusion 2.1,用約6億個樣本的影片資料集預訓練了基礎模型。 

可輕鬆適應各種下游任務,包括透過對多視圖資料集進行微調從單個圖像進行多視圖合成。 

微調後,官方公布的是兩種圖像到影片模型,可以以每秒3到30影格之間的自訂畫面播放速率生成14(SVD)和25影格(SVD-XT)的影片:

之後又微調了多視角影片生成模型,叫做SVD-MV:

根據測試結果,在GSO資料集上,SVD-MV得分優於多視角生成模型Zero123、Zero123XL、SyncDreamer:

值得一提的是,Stability AI表示SVD目前僅限於研究,不適用於實際或商業應用。SVD目前也不是所有人都可以使用,但已開放使用者候補名單註冊。 

影片生成大爆發

最近影片生成領域呈現出現「混戰」的局面。 

前有PikaLabs開發的文字生影片AI:

 

後又有號稱史上最強大的影片生成AIMoonvalley推出: 

最近Gen-2的「運動筆刷」功能也正式上線,指到哪畫哪 

現在SVD又出現了。 

但文本到3D生成方面好像還沒有太多進展,網友對這一現象也很是困惑。

有人認為資料是阻礙發展的瓶頸:

還有網友表示原因在於強化學習還不夠強:

 

 

ADVERTISEMENT