Google 宣布推出最新音訊模型 Gemini 3.5 Live Translate,主打近乎即時的語音對語音翻譯能力,可支援 70 多種語言,並將陸續導入 Google 翻譯、Google Meet、Gemini Live API 與 Google AI Studio 等產品與服務。
可保留語調、節奏與音高,讓翻譯更接近真人對話
Gemini 3.5 Live Translate 可自動偵測 70 多種語言,並生成流暢、自然的翻譯語音,同時保留說話者的語調、節奏與音高,讓翻譯結果更接近真實對話。
不同於傳統逐句翻譯系統必須等待說話者講完才開始回應,Gemini 3.5 Live Translate 可在語音串流過程中持續產生翻譯內容。Google 表示,該模型會在「等待更多語境以提升品質」與「立即翻譯以跟上說話者」之間取得平衡,因此能減少突兀停頓,並在整段對話中維持只落後說話者數秒的翻譯速度。
此外,該模型也支援多語言輸入,不需要使用者手動設定語言,並具備抗噪能力,可應用於吵雜或不可預測的環境,例如多語通話、會議、課程、直播與廣播等場景。
Google 翻譯 App 全球推出,Android 新增手機聽筒聆聽模式
Gemini 3.5 Live Translate 將在全球 Android 與 iOS 版 Google 翻譯 App 中推出。使用者啟用即時翻譯功能後,只要連接任一款耳機,就能聽到更自然、可反映說話者語氣的翻譯語音,支援 70 多種語言。
針對 Android 使用者,Google 也開始推出搭載 Gemini 3.5 Live Translate 的全新「聆聽模式」。使用者可像接聽一般電話一樣將手機靠近耳朵,直接透過手機聽筒聆聽翻譯內容。Google 表示,這項功能適合在沒有耳機、或不希望旁人聽見翻譯內容時使用。

Google Meet 將支援超過 2,000 種語言組合
Google Meet 的語音翻譯功能也將導入 Gemini 3.5 Live Translate。更新後,Google Meet 的翻譯語言將從原本的 5 種提升至 70 多種,且單場會議可支援超過 2,000 種語言組合,不再限於英文與其他語言之間互譯。
Google 也將更新 Google Meet 介面,讓使用者能更快速啟用語音翻譯功能。這項更新將自本月起先向部分 Google Workspace 企業客戶推出私人預覽,並預計於今年稍晚擴大推出。
開發者可透過 Gemini Live API 打造即時口譯與配音應用
開發者可透過 Gemini Live API 與 Google AI Studio 使用 Gemini 3.5 Live Translate 的公開預覽版。Google 表示,該模型可在語音串流過程中即時處理內容,協助開發者打造更自然的跨語言溝通體驗。
Google 也展示 Gemini Live API 可用於配音與多語同步翻譯,並提供示範與範例程式碼。包括 Agora、Fishjam、LiveKit、Pipecat 與 Vision Agents 等開發者平台,已透過 Gemini Live API 協助開發者更容易打造與部署語音翻譯應用,讓開發者能專注於使用者體驗,而不必自行處理複雜的即時媒體串流基礎架構。
Google 強調,所有由其模型生成的音訊都會加入 SynthID 浮水印。這種人耳無法察覺的浮水印會直接嵌入音訊輸出中,讓 AI 生成內容仍可被偵測,以協助防範錯誤資訊傳播。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!