微軟發表 DragonV2.1 語音模型：AI 合成語音更自然，錯誤率降低 12.8%、支援百種語言 | T客邦

T客邦為提供您更多優質的內容，採用網站分析技術，若您點選「我同意」或繼續瀏覽本網站，即表示您同意我們的隱私權政策。

我同意

半導體/電子產業 5G/網路 AI/大數據電動車/交通

加密貨幣/區塊鏈遊戲/電競雲端/資訊安全商業/金融

尖端科技 3C新品趨勢

抽獎/得獎公告體驗試玩活動課程講座

微軟發表 DragonV2.1 語音模型：AI 合成語音更自然，錯誤率降低 12.8%、支援百種語言

微軟推出了名為 DragonV2.1 Neural 的全新 AI 模型，主打僅需少量數據，就能創建出更為自然、富有表現力的語音，並支援超過 100 種語言。

這是一款採用「零樣本學習」（Zero-Shot Learning）技術的文字轉語音（TTS）模型，旨在提供更自然的聲音、更準確的發音，以及更強大的可控性。

Dragon V2.1 model cards

Attribute	Details
Architecture	Transformer model
Highlights	- Multilingual - Zero-shot voice cloning with 5–90 s prompts - Emotion, accent, and environment adaptation
Context Length	30 seconds of audio
Supported Languages	100+ Azure TTS locales
SSML Support	Yes
Latency	< 300 ms
RTF (Real-Time Factor)	< 0.05

新模型的核心亮點包括：

高效率學習：僅需要幾秒鐘的語音樣本，就能夠合成出特定聲音，並支援超過 100 種語言的語音輸出。
精準度提升：相較於前一代 DragonV1 模型，DragonV2.1 在發音準確性上有所提升，特別是修正了前代在處理專有名詞時的發音問題。根據微軟的數據，新模型的單詞錯誤率（WER）平均降低了 12.8% 。
聲音更自然、可控性更高：新模型提升了聲音的自然度，同時使用者可以利用 SSML（語音合成標記語言）的音素標籤和自定義詞典，對發音和口音進行更細緻的控制。

DragonV2.1 模型可以應用於多種不同情境，例如為聊天機器人客製化專屬聲音，或是為影片內容進行跨多國語言的配音工作。這項新的語音模型（Personal Voice）已經整合到 Azure AI 影片翻譯服務中，並且有一個非常具體的應用目標：協助短劇（short drama）創作者輕鬆進入全球市場。

這項服務能讓影片內容在進行跨語言配音時，保留原始演員的語氣和風格，實現一鍵式的 AI 翻譯。目前，新一代的短劇創作者 TopShort 和翻譯服務商 JOWO.ai 已經成為這項服務的合作夥伴。

為了幫助使用者快速上手，微軟也預先建立了多個聲音範本，如 Andrew、Ava 和 Brian 等，供使用者進行測試。

新聞來源：microsoft

#人工智慧 #ai

送【10個ChatGPT的好工具】電子書 Line brand icon

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則