FB 建議貼文

選取貼文複製成功(包含文章連結)!

微軟發表 DragonV2.1 語音模型:AI 合成語音更自然,錯誤率降低 12.8%、支援百種語言

微軟發表 DragonV2.1 語音模型:AI 合成語音更自然,錯誤率降低 12.8%、支援百種語言

微軟推出了名為 DragonV2.1 Neural 的全新 AI 模型,主打僅需少量數據,就能創建出更為自然、富有表現力的語音,並支援超過 100 種語言 。

這是一款採用「零樣本學習」(Zero-Shot Learning)技術的文字轉語音(TTS)模型,旨在提供更自然的聲音、更準確的發音,以及更強大的可控性 。

Dragon V2.1 model cards

Attribute

Details

Architecture

Transformer model

Highlights

- Multilingual
- Zero-shot voice cloning with 5–90 s prompts
- Emotion, accent, and environment adaptation

Context Length

30 seconds of audio

Supported Languages

100+ Azure TTS locales

SSML Support

Yes

Latency

< 300 ms

RTF (Real-Time Factor)

< 0.05

 

新模型的核心亮點包括:

  • 高效率學習:僅需要幾秒鐘的語音樣本,就能夠合成出特定聲音,並支援超過 100 種語言的語音輸出 。

  • 精準度提升:相較於前一代 DragonV1 模型,DragonV2.1 在發音準確性上有所提升,特別是修正了前代在處理專有名詞時的發音問題 。根據微軟的數據,新模型的單詞錯誤率(WER)平均降低了 12.8% 。

  • 聲音更自然、可控性更高:新模型提升了聲音的自然度,同時使用者可以利用 SSML(語音合成標記語言)的音素標籤和自定義詞典,對發音和口音進行更細緻的控制 。

DragonV2.1 模型可以應用於多種不同情境,例如為聊天機器人客製化專屬聲音,或是為影片內容進行跨多國語言的配音工作 。這項新的語音模型(Personal Voice)已經整合到 Azure AI 影片翻譯服務中,並且有一個非常具體的應用目標:協助短劇(short drama)創作者輕鬆進入全球市場

這項服務能讓影片內容在進行跨語言配音時,保留原始演員的語氣和風格,實現一鍵式的 AI 翻譯。目前,新一代的短劇創作者 TopShort 和翻譯服務商 JOWO.ai 已經成為這項服務的合作夥伴。

為了幫助使用者快速上手,微軟也預先建立了多個聲音範本,如 Andrew、Ava 和 Brian 等,供使用者進行測試 。

IFENG
作者

鳳凰網(科技),集綜合資訊、視訊分發、原創內容製作、網路廣播、網路直播、媒體電商等多領域於一身,並於2011年在紐交所上市(紐交所代碼:FENG),成為全球首個從傳統媒體分拆上市的新媒體公司。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則