Google 推出全新的 Gemini Omni 模型系列,結合 Gemini 的推理能力與內容生成功能,讓 AI 能夠從文字、圖片、影片與音訊等多種輸入資料建立影片內容,首波推出的版本為 Gemini Omni Flash,目前已開始在 Gemini App、Google Flow 與 YouTube Shorts 上線。
Google 表示,先前推出的 Nano Banana 已經讓不少使用者能修復老照片、依照草圖設計圖像,或將概念視覺化,這次的 Gemini Omni 則進一步將多模態能力延伸到影片生成與編輯。
Gemini Omni Flash 的一項主要功能,是能透過自然語言對影片進行編輯,使用者不需要傳統剪輯流程,只要以對話方式描述修改需求,系統就能持續調整影片內容,同時保留角色一致性、場景邏輯與物理效果,例如可以要求系統將雕像改成泡泡材質,或是在人物觸碰鏡子時,讓鏡面產生液態波紋效果。

Google 也展示了多輪修改能力,使用者可以逐步改變影片的場景、風格、鏡頭角度與細節,系統會延續原本的畫面內容,而不是每次重新生成。
在影片生成方面,Gemini Omni Flash 強調對現實世界知識與物理現象的理解,Google 指出,模型能模擬重力、流體與動能等效果,讓生成畫面更接近真實,例如系統可建立一段連續運鏡的彈珠軌道影片,並維持合理的運動邏輯。

除了物理效果,Gemini Omni Flash 也能結合語意與知識生成較複雜的內容,Google 展示了一段英文字母主題影片,系統會依照字母搭配對應物件,例如以水豚 (Capybara)代表字母 C、熔岩燈(Lava lamp)代表字母 L,並搭配字幕與背景音樂自動生成完整短片。

另一個應用方向則是解說型影片,Google 表示,Gemini Omni Flash 能依照簡短指令,自動建立具視覺化效果的知識內容,例如以黏土動畫風格解釋蛋白質摺疊過程。

在輸入方式上,Gemini Omni Flash 支援混合多種素材來源,使用者可以同時提供圖片、影片、音訊與文字描述,系統會整合成單一影片內容。初期音訊功能先支援語音參考,未來將逐步加入更多音訊輸入類型。
Google 也展示了以既有影片與圖片作為參考素材的功能,例如使用者可上傳人物照片與場景圖片,再指定影片風格,例如復古未來感或科幻電影風格,系統會自動套用一致的視覺效果與動態設計。

此外,Gemini Omni Flash 也提供數位 Avatar 功能,讓使用者建立自己的虛擬分身,生成具有個人外觀與聲音的影片內容,Google 表示,目前仍持續測試與評估 AI 修改語音與對白功能的使用方式。
為了標示 AI 生成內容,所有透過 Gemini Omni 建立的影片都會加入 SynthID 數位浮水印,Google 表示,使用者可透過 Gemini App、Chrome 版 Gemini 與 Google 搜尋確認影片是否由 AI 生成。
目前 Gemini Omni Flash 已向 Google AI Plus、Pro 與 Ultra 訂閱使用者開放,並開始在全球推出。同時,YouTube Shorts 與 YouTube Create App 使用者也可免費使用部分功能。Google 預計未來幾週內,將進一步透過 API 提供給開發者與企業客戶使用。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!