Stable Video Diffusion問世！全新SVD支援文字到影片、圖像到影片的繪製

Stable Diffusion官方終於進展到影片了——

發表生成式影片模型Stable Video Diffusion（SVD）。

Stability AI官方部落格顯示，全新SVD支援文字到影片、圖像到影片的繪製：

並且還支援物體從單一視角到多視角的轉化，也就是3D合成：

根據外部評估，官方宣稱SVD甚至比runway和Pika的影片生成AI更受使用者歡迎。

雖然目前只發表了基礎模型，但官方透露「正計畫繼續擴充，建立類似於Stable Diffusion的生態系統」。

目前論文程式碼權重已上線。

最近影片生成領域不斷出現新玩法，這次輪到Stable Diffusion出招，以至於網友們的第一反應就是「快」，進步太快！

但僅從Demo效果來說，更多網友們表示並沒有感到很驚喜。

雖然我喜歡SD，而且這些Demo也很棒……但也存在一些缺陷，光影不對、而且整體不連貫（影片格與格之間閃爍）。

但整體來說這是個開始，網友對SVD的3D合成功能還滿是看好：

我敢打賭，很快就會有更好的東西出來，到時候只要描述一下，就會得到一個完整的3D場景。

SD影片官方版來襲

除了上面展示的，官方還發表了更多Demo：

▲ 太空漫步

▲ 背景不動，只讓兩隻鳥動也可以

SVD的研究論文目前也已發表，據介紹SVD基於Stable Diffusion 2.1，用約6億個樣本的影片資料集預訓練了基礎模型。

可輕鬆適應各種下游任務，包括透過對多視圖資料集進行微調從單個圖像進行多視圖合成。

微調後，官方公布的是兩種圖像到影片模型，可以以每秒3到30影格之間的自訂畫面播放速率生成14（SVD）和25影格（SVD-XT）的影片：

之後又微調了多視角影片生成模型，叫做SVD-MV：

根據測試結果，在GSO資料集上，SVD-MV得分優於多視角生成模型Zero123、Zero123XL、SyncDreamer：

值得一提的是，Stability AI表示SVD目前僅限於研究，不適用於實際或商業應用。SVD目前也不是所有人都可以使用，但已開放使用者候補名單註冊。

最近影片生成領域呈現出現「混戰」的局面。

前有PikaLabs開發的文字生影片AI：

後又有號稱史上最強大的影片生成AIMoonvalley推出：

最近Gen-2的「運動筆刷」功能也正式上線，指到哪畫哪

現在SVD又出現了。

但文本到3D生成方面好像還沒有太多進展，網友對這一現象也很是困惑。

有人認為資料是阻礙發展的瓶頸：

還有網友表示原因在於強化學習還不夠強：