MetaAI語音翻譯大模型Seamless登場，支援近100種語言同步口譯，還能保留說話人的韻律和語音風格 | T客邦

MetaAI語音翻譯大模型Seamless登場，支援近100種語言同步口譯，還能保留說話人的韻律和語音風格

ADVERTISEMENT

近期，MetaAI的研究團隊發表了一套全流程的語言語音大模型Seamless（「無縫溝通」），Seamless主打流暢高效的多語言無縫翻譯功能，支援近 100 種語言，可以確保翻譯時保留說話人的韻律和語音風格，尤其是SeamlessStreaming中的高效不同類型注意力EMMA可以有針對性地實現並行低延遲翻譯，而無需等待當前話語結束。

▲論文：Seamless: Multilingual Expressive and Streaming Speech Translation

論文下載：Seamless: Multilingual Expressive and Streaming Speech Translation
程式連結：facebookresearch/seamless_communication
項目主頁：Seamless Communication

今年以來，以ChatGPT和GPT-4為代表的大型語言模型和視覺語言多模態大模型幾乎完全引領了人工智慧領域發展的潮流，在垂直領域也衍生出了一些行業專用的大模型，例如金融大模型、交通大模型和遙感大模型等。而對於資料登錄的三種基本模態而言，語音訊號在AI領域的重要性也不言而喻。

近期，MetaAI的研究團隊發表了一套全流程的語言語音大模型Seamless（「無縫溝通」），Seamless主打流暢高效的多語言無縫翻譯功能，在傳統翻譯系統的基礎上，對使用者的說話方式進行快速類比，保證翻譯出的語音訊號完整保留使用者的語氣、停頓和強調音等關鍵資訊，能更好的傳遞情感和意圖。特別要說明的是，Seamless是由三個基礎模型構成：

SeamlessExpressive：旨在保留跨語言的表達方式和複雜性的模型，目前已經支援英語、西班牙語、德語、法語、義大利語和中文等語言。
SeamlessStreaming：高效的串流媒體翻譯模型，可在大約兩秒的延遲下進行語音和文本翻譯。
SeamlessM4T v2：是Meta在今年8月份發表的SeamlessM4T升級版本，基礎的多語言和多工模型，在接近450萬小時的語音資料上進行訓練，在自動語音辨識、語音轉語音、語音轉文本和文本轉語音等多種基線任務上實現了性能提升。

Seamless一經發表就引起了廣泛的關注，作為Meta首席人工智慧科學家的LeCun第一時間為Seamless宣傳。

此外，開源區大佬Georgi Gerganov已經開始了對Seamless的Cpp重寫和推理加速工作，先前，Georgi Gerganov已經對Meta的LLaMA、OpenAI的Wisper等明星大模型開發了C++版本，其中llama.cpp在GitHub上的star數已經突破了6.5w。

延伸閱讀：100種語言文字和聲音任意翻譯！Meta用AI做出了科幻電影中的萬能翻譯「巴別魚」

多工基座模型SeamlessM4T v2

多工預訓練典範可以說是GPT系列模型的底層技術，Seamless作為語音翻譯領域的統一系統，同樣借鑒了這樣的構建邏輯。SeamlessM4T在廣泛的語種和語音翻譯任務上進行了大規模預訓練，作者團隊在構建SeamlessM4T v2版本時，重點對其多工預測單元UnitY進行了升級，SeamlessM4T v2將語音翻譯任務分為語音到文本翻譯（speech-to-text translation，S2TT）和文本到單元轉換（text-to-unit conversion，T2U）兩種。由於先前版本的UnitY在面對語音序列和文本序列長度不匹配情況時出現幻覺現象，作者提出了一種新的兩階段UnitY2單元，UnitY2採用了一種非自回歸（non-autoregressive，NAR）的單元解碼器架構，可以更好的對離散單元進行建模，基於UnitY2預測單元的SeamlessM4T v2模型整體架構如下圖所示。

UnitY2的更新提高了SeamlessM4T v2在各種任務上的翻譯品質，目前，SeamlessM4T v2 實現了在 100 種語言上的語音到語音和語音到文本翻譯的SOTA性能。

SeamlessExpressive完美攻克翻譯語調保留難題

語音中的韻律在人類交流中扮演著重要的角色，它能夠表現出說話者的情緒狀態、態度和意圖，而這一重要因素在以往的語音翻譯模型和系統中卻被忽視了。通常，我們會使用音調（高或低）、響度（強或弱）和持續時間（快或慢）的變化來在不同情況下表達自己的真實意圖，SeamlessExpressive可以在保留語義內容不變的情況下，精確捕捉說話人的語速和停頓等資訊，並使用目的語言進行轉述。

下圖展示了SeamlessExpressive的整體框架，從實現角度來看，SeamlessExpressive主要基於SeamlessM4T v2模型進行構建，其繼承了高品質的語義翻譯能力。作者團隊提出了一種基於UnitY2單元的韻律感知單元Prosody UnitY2，同時提出了一種無文本的聲學模型PRETSSEL，Prosody UnitY2 和 PRETSSEL 可以在傳遞來源語言語音的表現力方面進行相互補充。具體來說，Prosody UnitY2 主要關注語音中的短語級韻律，例如語速或停頓，而 PRETSSEL 則更著重于翻譯話語級的表達力，例如整體的聲音風格。

為了實現在多種語言之間的韻律對齊，作者透過資料調試、自動對齊和合成等手段構建了一個大規模的韻律對齊和語音對齊資料集，同時支援英語、法語、德語、義大利語、普通話和西班牙語在內的6種語言。

延伸閱讀：Google的AI 影片翻譯技術Universal Translator：不但能同步口譯成各種語言，連人物嘴型都能配合

同步口譯SeamlessStreaming

在國際會議中，同步口譯是一個非常關鍵的會議任務，人類口譯員需要快速的理解說話人的含義，並根據自己的經驗知識在低延遲和準確翻譯之間找到一個適當的平衡，還需要留意說話人的語調、停頓和態度等訊號，綜合來看，該任務的難度係數非常高，SeamlessStreaming完美實現了以上列出的同步口譯要點。

與傳統翻譯系統相比，SeamlessStreaming並不是等說話人說完句子才進行翻譯，而是與說話人幾乎相同的步調進行翻譯，這能夠實現一種接近於即時翻譯的效果。目前，SeamlessStreaming 支援近 100 種輸入和輸出語言的自動語音辨識和語音到文本翻譯。

SeamlessStreaming直接從SeamlessM4T v2進行初始化，其構建過程如下圖所示，其繼承了SeamlessM4T v2模型的多工即時翻譯能力。

SeamlessStreaming的高效流推理能力主要來源於研究團隊提出的新型EMMA（Efficient Monotonic Multihead Attention）不同類型注意力模組，EMMA是一種單調注意力方法，其中的每個注意力頭都執行單獨的同步策略。這使得模型能夠智慧地判斷當前狀態是否擁有足夠的信息量來生成下一個語音片段或目標文本，這對於低時延的語音翻譯至關重要，特別是對於長輸入序列。

音訊浮水印技術

雖然目前的大模型可以説明我們更好的進行生產生活，但同樣重要的是，我們必須考慮採取一定的措施來防止這些技術被濫用到有危害的場景中，因此MetaAI研究團隊針對Seamless開發了一種音訊浮水印技術，這種浮水印主要基於一些人耳無法察覺的訊號，但仍然可以使用檢測器模型在音訊中檢測到。

除了能夠對產生音訊進行身份資訊驗證之外，Seamless浮水印還支持抗攻擊能力，例如一些破壞者可能會嘗試透過加入雜訊、回聲或過濾某些頻率來修改音訊，以淡化浮水印來繞過檢測。Seamless浮水印對多種攻擊方式都具有良好的魯棒性，並且可以實現精確到影格的音訊片段定位效果。此外，作者提到，Seamless浮水印模型的成本非常低，它可以進行單獨微調，而不會影響SeamlessExpressive和SeamlessStreaming的翻譯效果。

總結

MetaAI發表的Seamless模型為我們展現出了驚人的同步口譯效果，並且支援近 100 種語言，其中的多工基礎模型SeamlessM4T v2在多個語音基線上實現了SOTA性能，Seamless Expressive可以保證翻譯時保留說話人的韻律和語音風格，SeamlessStreaming中的高效不同類型注意力EMMA可以有針對性地實現並行低延遲翻譯，而無需等待當前話語結束。

作為下一代語音智慧大模型，Seamless系列模型所展現出的端到端多語言、富有表現力和低時延的串流媒體式翻譯模式，標誌著人工智慧技術在語音翻譯領域實現了全新的突破。

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則