Gemini Omni Flash 登場，支援文字、圖片與影片輸入的 AI 影片生成工具

Google 推出全新的 Gemini Omni 模型系列，結合 Gemini 的推理能力與內容生成功能，讓 AI 能夠從文字、圖片、影片與音訊等多種輸入資料建立影片內容，首波推出的版本為 Gemini Omni Flash，目前已開始在 Gemini App、Google Flow 與 YouTube Shorts 上線。

Google 表示，先前推出的 Nano Banana 已經讓不少使用者能修復老照片、依照草圖設計圖像，或將概念視覺化，這次的 Gemini Omni 則進一步將多模態能力延伸到影片生成與編輯。

Gemini Omni Flash 的一項主要功能，是能透過自然語言對影片進行編輯，使用者不需要傳統剪輯流程，只要以對話方式描述修改需求，系統就能持續調整影片內容，同時保留角色一致性、場景邏輯與物理效果，例如可以要求系統將雕像改成泡泡材質，或是在人物觸碰鏡子時，讓鏡面產生液態波紋效果。

Google 也展示了多輪修改能力，使用者可以逐步改變影片的場景、風格、鏡頭角度與細節，系統會延續原本的畫面內容，而不是每次重新生成。

在影片生成方面，Gemini Omni Flash 強調對現實世界知識與物理現象的理解，Google 指出，模型能模擬重力、流體與動能等效果，讓生成畫面更接近真實，例如系統可建立一段連續運鏡的彈珠軌道影片，並維持合理的運動邏輯。

除了物理效果，Gemini Omni Flash 也能結合語意與知識生成較複雜的內容，Google 展示了一段英文字母主題影片，系統會依照字母搭配對應物件，例如以水豚（Capybara）代表字母 C、熔岩燈（Lava lamp）代表字母 L，並搭配字幕與背景音樂自動生成完整短片。

另一個應用方向則是解說型影片，Google 表示，Gemini Omni Flash 能依照簡短指令，自動建立具視覺化效果的知識內容，例如以黏土動畫風格解釋蛋白質摺疊過程。

在輸入方式上，Gemini Omni Flash 支援混合多種素材來源，使用者可以同時提供圖片、影片、音訊與文字描述，系統會整合成單一影片內容。初期音訊功能先支援語音參考，未來將逐步加入更多音訊輸入類型。

Google 也展示了以既有影片與圖片作為參考素材的功能，例如使用者可上傳人物照片與場景圖片，再指定影片風格，例如復古未來感或科幻電影風格，系統會自動套用一致的視覺效果與動態設計。

此外，Gemini Omni Flash 也提供數位 Avatar 功能，讓使用者建立自己的虛擬分身，生成具有個人外觀與聲音的影片內容，Google 表示，目前仍持續測試與評估 AI 修改語音與對白功能的使用方式。

為了標示 AI 生成內容，所有透過 Gemini Omni 建立的影片都會加入 SynthID 數位浮水印，Google 表示，使用者可透過 Gemini App、Chrome 版 Gemini 與 Google 搜尋確認影片是否由 AI 生成。

目前 Gemini Omni Flash 已向 Google AI Plus、Pro 與 Ultra 訂閱使用者開放，並開始在全球推出。同時，YouTube Shorts 與 YouTube Create App 使用者也可免費使用部分功能。Google 預計未來幾週內，將進一步透過 API 提供給開發者與企業客戶使用。