FB 建議貼文

選取貼文複製成功(包含文章連結)!

Gemini Omni Flash 登場,支援文字、圖片與影片輸入的 AI 影片生成工具

Gemini Omni Flash 登場,支援文字、圖片與影片輸入的 AI 影片生成工具

Google 推出全新的 Gemini Omni 模型系列,結合 Gemini 的推理能力與內容生成功能,讓 AI 能夠從文字、圖片、影片與音訊等多種輸入資料建立影片內容,首波推出的版本為 Gemini Omni Flash,目前已開始在 Gemini App、Google Flow 與 YouTube Shorts 上線。

Google 表示,先前推出的 Nano Banana 已經讓不少使用者能修復老照片、依照草圖設計圖像,或將概念視覺化,這次的 Gemini Omni 則進一步將多模態能力延伸到影片生成與編輯。

Gemini Omni Flash 的一項主要功能,是能透過自然語言對影片進行編輯,使用者不需要傳統剪輯流程,只要以對話方式描述修改需求,系統就能持續調整影片內容,同時保留角色一致性、場景邏輯與物理效果,例如可以要求系統將雕像改成泡泡材質,或是在人物觸碰鏡子時,讓鏡面產生液態波紋效果。

Gemini Omni Flash 登場,支援文字、圖片與影片輸入的 AI 影片生成工具

Google 也展示了多輪修改能力,使用者可以逐步改變影片的場景、風格、鏡頭角度與細節,系統會延續原本的畫面內容,而不是每次重新生成。

在影片生成方面,Gemini Omni Flash 強調對現實世界知識與物理現象的理解,Google 指出,模型能模擬重力、流體與動能等效果,讓生成畫面更接近真實,例如系統可建立一段連續運鏡的彈珠軌道影片,並維持合理的運動邏輯。

Gemini Omni Flash 登場,支援文字、圖片與影片輸入的 AI 影片生成工具

除了物理效果,Gemini Omni Flash 也能結合語意與知識生成較複雜的內容,Google 展示了一段英文字母主題影片,系統會依照字母搭配對應物件,例如以水豚 (Capybara)代表字母 C、熔岩燈(Lava lamp)代表字母 L,並搭配字幕與背景音樂自動生成完整短片。

Gemini Omni Flash 登場,支援文字、圖片與影片輸入的 AI 影片生成工具

另一個應用方向則是解說型影片,Google 表示,Gemini Omni Flash 能依照簡短指令,自動建立具視覺化效果的知識內容,例如以黏土動畫風格解釋蛋白質摺疊過程。

Gemini Omni Flash 登場,支援文字、圖片與影片輸入的 AI 影片生成工具

在輸入方式上,Gemini Omni Flash 支援混合多種素材來源,使用者可以同時提供圖片、影片、音訊與文字描述,系統會整合成單一影片內容。初期音訊功能先支援語音參考,未來將逐步加入更多音訊輸入類型。

Google 也展示了以既有影片與圖片作為參考素材的功能,例如使用者可上傳人物照片與場景圖片,再指定影片風格,例如復古未來感或科幻電影風格,系統會自動套用一致的視覺效果與動態設計。

Gemini Omni Flash 登場,支援文字、圖片與影片輸入的 AI 影片生成工具

此外,Gemini Omni Flash 也提供數位 Avatar 功能,讓使用者建立自己的虛擬分身,生成具有個人外觀與聲音的影片內容,Google 表示,目前仍持續測試與評估 AI 修改語音與對白功能的使用方式。

為了標示 AI 生成內容,所有透過 Gemini Omni 建立的影片都會加入 SynthID 數位浮水印,Google 表示,使用者可透過 Gemini App、Chrome 版 Gemini 與 Google 搜尋確認影片是否由 AI 生成。

目前 Gemini Omni Flash 已向 Google AI Plus、Pro 與 Ultra 訂閱使用者開放,並開始在全球推出。同時,YouTube Shorts 與 YouTube Create App 使用者也可免費使用部分功能。Google 預計未來幾週內,將進一步透過 API 提供給開發者與企業客戶使用。

 

 

 

洪詩詩
作者

PC home雜誌、T客邦產業編輯,長期報導手機、行動裝置、電信商以及行動支付、電商相關領域,負責手機平板器材、5G網路、無線耳機等產品評測,以及相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則