
微軟推出了名為 DragonV2.1 Neural 的全新 AI 模型,主打僅需少量數據,就能創建出更為自然、富有表現力的語音,並支援超過 100 種語言 。
這是一款採用「零樣本學習」(Zero-Shot Learning)技術的文字轉語音(TTS)模型,旨在提供更自然的聲音、更準確的發音,以及更強大的可控性 。
Dragon V2.1 model cards
Attribute |
Details |
Architecture |
Transformer model |
Highlights |
- Multilingual |
Context Length |
30 seconds of audio |
Supported Languages |
100+ Azure TTS locales |
SSML Support |
Yes |
Latency |
< 300 ms |
RTF (Real-Time Factor) |
< 0.05 |
新模型的核心亮點包括:
-
高效率學習:僅需要幾秒鐘的語音樣本,就能夠合成出特定聲音,並支援超過 100 種語言的語音輸出 。
-
精準度提升:相較於前一代 DragonV1 模型,DragonV2.1 在發音準確性上有所提升,特別是修正了前代在處理專有名詞時的發音問題 。根據微軟的數據,新模型的單詞錯誤率(WER)平均降低了 12.8% 。
-
聲音更自然、可控性更高:新模型提升了聲音的自然度,同時使用者可以利用 SSML(語音合成標記語言)的音素標籤和自定義詞典,對發音和口音進行更細緻的控制 。
DragonV2.1 模型可以應用於多種不同情境,例如為聊天機器人客製化專屬聲音,或是為影片內容進行跨多國語言的配音工作 。這項新的語音模型(Personal Voice)已經整合到 Azure AI 影片翻譯服務中,並且有一個非常具體的應用目標:協助短劇(short drama)創作者輕鬆進入全球市場。
這項服務能讓影片內容在進行跨語言配音時,保留原始演員的語氣和風格,實現一鍵式的 AI 翻譯。目前,新一代的短劇創作者 TopShort 和翻譯服務商 JOWO.ai 已經成為這項服務的合作夥伴。
為了幫助使用者快速上手,微軟也預先建立了多個聲音範本,如 Andrew、Ava 和 Brian 等,供使用者進行測試 。
- 新聞來源:microsoft
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!