FB 建議貼文

選取貼文複製成功(包含文章連結)!

Gemini 3.5 Live Translate 登場,打開 Google 翻譯 App 就能即時語音翻譯

Gemini 3.5 Live Translate 登場,打開 Google 翻譯 App 就能即時語音翻譯

Google 宣布推出最新音訊模型 Gemini 3.5 Live Translate,主打近乎即時的語音對語音翻譯能力,可支援 70 多種語言,並將陸續導入 Google 翻譯、Google Meet、Gemini Live API 與 Google AI Studio 等產品與服務。

可保留語調、節奏與音高,讓翻譯更接近真人對話

Gemini 3.5 Live Translate 可自動偵測 70 多種語言,並生成流暢、自然的翻譯語音,同時保留說話者的語調、節奏與音高,讓翻譯結果更接近真實對話。

不同於傳統逐句翻譯系統必須等待說話者講完才開始回應,Gemini 3.5 Live Translate 可在語音串流過程中持續產生翻譯內容。Google 表示,該模型會在「等待更多語境以提升品質」與「立即翻譯以跟上說話者」之間取得平衡,因此能減少突兀停頓,並在整段對話中維持只落後說話者數秒的翻譯速度。

此外,該模型也支援多語言輸入,不需要使用者手動設定語言,並具備抗噪能力,可應用於吵雜或不可預測的環境,例如多語通話、會議、課程、直播與廣播等場景。

Google 翻譯 App 全球推出,Android 新增手機聽筒聆聽模式

Gemini 3.5 Live Translate 將在全球 Android 與 iOS 版 Google 翻譯 App 中推出。使用者啟用即時翻譯功能後,只要連接任一款耳機,就能聽到更自然、可反映說話者語氣的翻譯語音,支援 70 多種語言。

針對 Android 使用者,Google 也開始推出搭載 Gemini 3.5 Live Translate 的全新「聆聽模式」。使用者可像接聽一般電話一樣將手機靠近耳朵,直接透過手機聽筒聆聽翻譯內容。Google 表示,這項功能適合在沒有耳機、或不希望旁人聽見翻譯內容時使用。

Gemini 3.5 Live Translate 登場,打開 Google 翻譯 App 就能即時語音翻譯

Google Meet 將支援超過 2,000 種語言組合

Google Meet 的語音翻譯功能也將導入 Gemini 3.5 Live Translate。更新後,Google Meet 的翻譯語言將從原本的 5 種提升至 70 多種,且單場會議可支援超過 2,000 種語言組合,不再限於英文與其他語言之間互譯。

Google 也將更新 Google Meet 介面,讓使用者能更快速啟用語音翻譯功能。這項更新將自本月起先向部分 Google Workspace 企業客戶推出私人預覽,並預計於今年稍晚擴大推出。

開發者可透過 Gemini Live API 打造即時口譯與配音應用

開發者可透過 Gemini Live API 與 Google AI Studio 使用 Gemini 3.5 Live Translate 的公開預覽版。Google 表示,該模型可在語音串流過程中即時處理內容,協助開發者打造更自然的跨語言溝通體驗。

Google 也展示 Gemini Live API 可用於配音與多語同步翻譯,並提供示範與範例程式碼。包括 Agora、Fishjam、LiveKit、Pipecat 與 Vision Agents 等開發者平台,已透過 Gemini Live API 協助開發者更容易打造與部署語音翻譯應用,讓開發者能專注於使用者體驗,而不必自行處理複雜的即時媒體串流基礎架構。

Google 強調,所有由其模型生成的音訊都會加入 SynthID 浮水印。這種人耳無法察覺的浮水印會直接嵌入音訊輸出中,讓 AI 生成內容仍可被偵測,以協助防範錯誤資訊傳播。

ycr
作者

PC home 雜誌、T 客邦編輯,也負責 T 客邦影新聞 YouTube 頻道影音製作。關注 AI 相關應用、產業趨勢等消息,並有軟體教學報導。(大頭貼為 AI 生成)

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則