Google 推出 Gemini 3.1 Flash TTS 文字轉語音模型，支援近 70 種語言且具備豐富情感表達

Google 宣布在其 Gemini 3.1 系列中推出全新的文字轉語音模型「Gemini‑TTS」，官方將其描述為「至今最富表現力的文字轉語音解決方案」。這款新模型不僅能生成聽感自然、高保真的語音，更首度讓開發者透過提示詞（Prompt）直接控制語音的情感、節奏與風格。

自動辨識 70 種語言，打破跨國應用門檻

Gemini‑TTS 的最大亮點在於其高度的可操控性。開發者現在可以在旁白或對話中，精確調節語氣、停頓以及情緒變化。這意味著未來的 AI 語音不再只是單調的朗讀，而是能根據情境表現出興奮、哀傷或專業等不同層次的情緒，使語音內容更貼近真人表現。

在多語系支援方面，Gemini‑TTS 展現了強大的應對能力：

支援語言廣泛：涵蓋全球約 70 種語言，包含繁體中文、英文、西班牙文、德文、日文等主流語系。
自動語系偵測：模型可自動檢測輸入文字的語種，開發者無須手動標註語言類型即可生成對應語音。
應用場景多元：企業可透過統一的 API，將此技術應用於有聲書、Podcast、語音助理、客服機器人及教育應用等全球化場景。

強化即時互動，鎖定低延遲語音代理市場

Google 特別強調，Gemini‑TTS 與 Gemini 3.1 系列的其他音訊模型（如 Gemini 3.1 Flash Live）能產生協同效應，進一步強化「即時語音體驗」。在即時對話、語音翻譯及多模態互動中，該系統能在維持低延遲的同時，透過文字提示與音訊標記精細控制語音輸出。這項技術將使 AI 代理在電話溝通、線上會議、路況導航等情境下，擁有更接近自然人類的語音互動體驗。

過去我們在使用 TTS 技術時，通常只能選擇預設的幾種聲音設定，如果要調整情緒，往往需要複雜的標籤與後製。Google 這次將 Gemini 的理解能力引入語音生成，讓「提示詞控制語音」成為可能，這對內容創作者與客服自動化來說是巨大的轉折。想像一下，未來只需輸入「用充滿懸疑的語氣讀這段話」，AI 就能自動調整節奏與停頓，這將大幅降低高品質語音內容的製作門檻。