FB 建議貼文

選取貼文複製成功(包含文章連結)!

Google 推出 Gemini 3.1 Flash TTS 文字轉語音模型,支援近 70 種語言且具備豐富情感表達

Google 推出 Gemini 3.1 Flash TTS 文字轉語音模型,支援近 70 種語言且具備豐富情感表達

Google 宣布在其 Gemini 3.1 系列中推出全新的文字轉語音模型「Gemini‑TTS」,官方將其描述為「至今最富表現力的文字轉語音解決方案」 。這款新模型不僅能生成聽感自然、高保真的語音,更首度讓開發者透過提示詞(Prompt)直接控制語音的情感、節奏與風格

自動辨識 70 種語言,打破跨國應用門檻

Gemini‑TTS 的最大亮點在於其高度的可操控性。開發者現在可以在旁白或對話中,精確調節語氣、停頓以及情緒變化 。這意味著未來的 AI 語音不再只是單調的朗讀,而是能根據情境表現出興奮、哀傷或專業等不同層次的情緒,使語音內容更貼近真人表現。

在多語系支援方面,Gemini‑TTS 展現了強大的應對能力:

  • 支援語言廣泛:涵蓋全球約 70 種語言,包含繁體中文、英文、西班牙文、德文、日文等主流語系

  • 自動語系偵測:模型可自動檢測輸入文字的語種,開發者無須手動標註語言類型即可生成對應語音

  • 應用場景多元:企業可透過統一的 API,將此技術應用於有聲書、Podcast、語音助理、客服機器人及教育應用等全球化場景

強化即時互動,鎖定低延遲語音代理市場

Google 特別強調,Gemini‑TTS 與 Gemini 3.1 系列的其他音訊模型(如 Gemini 3.1 Flash Live)能產生協同效應,進一步強化「即時語音體驗」 。在即時對話、語音翻譯及多模態互動中,該系統能在維持低延遲的同時,透過文字提示與音訊標記精細控制語音輸出 。這項技術將使 AI 代理在電話溝通、線上會議、路況導航等情境下,擁有更接近自然人類的語音互動體驗

過去我們在使用 TTS 技術時,通常只能選擇預設的幾種聲音設定,如果要調整情緒,往往需要複雜的標籤與後製。Google 這次將 Gemini 的理解能力引入語音生成,讓「提示詞控制語音」成為可能,這對內容創作者與客服自動化來說是巨大的轉折。想像一下,未來只需輸入「用充滿懸疑的語氣讀這段話」,AI 就能自動調整節奏與停頓,這將大幅降低高品質語音內容的製作門檻。

 

 

科客網
作者

一個富有活力的科技資訊網站。設置資訊、酷玩、視頻、評測等頻道,網羅全球最新鮮的科技資訊,探討科技的現在與未來。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則