Meta 發佈 Voicebox AI 語音生成模型、僅需2秒聲音樣本就可讓你說出6國語言，但因為太真實暫不開放

Meta 目前發佈了 Voicebox AI 模型，相對於只能使用文字或圖片回覆的競品模型，Voicebox AI 模型的優勢主要如其名，能夠生成用於回覆的音訊消息。

Voicebox 可以製作高質量的音頻剪輯並編輯預先錄製的音頻，例如移除汽車喇叭或狗叫聲的同時保留音頻的內容和風格。該模型也是多語言的，僅需2秒聲音樣本，可以產生六種語言的語音。

未來像 Voicebox 這樣的多用途生成 AI 模型可以為元宇宙中的虛擬助手和NPC角色提供自然的聲音，也可以讓視障人士聽到朋友由文字傳來轉為語音的內容，AI會用他們的聲音朗讀這些文字訊息。

可以實現六種任務

Meta表示，Voicebox具有多功能性，可以實現各種任務，包括：

上下文文字到語音合成：使用短至兩秒的音頻樣本，Voicebox 可以匹配音頻風格並將其用於文本到語音生成。

語音編輯和降噪：Voicebox 可以重新創建被噪音打斷的部分語音或替換說錯的詞，而無需重新錄製整個語音。例如，您可以識別被狗叫聲打斷的一段語音，將其裁剪，然後指示 Voicebox 重新生成該段內容。

跨語言風格轉換：比方說某人以一段英語演講的內容，Voicebox 可以生成他以不同語言演講的內容。將來可以使用此功能來幫助人們以自然、真實的方式進行交流，即使他們不會說同一種語言。

Diverse speech sampling ：從不同的數據中學習後，Voicebox 可以生成更能代表人們在現實世界中使用上述六種語言的談話方式的語音。

▲ Voicebox AI 模型的特色，圖源 Meta

Meta 表示，Voicebox 可以為基於 AI 的虛擬助手或元宇宙中的 NPC 提供自然而真實的語音效果。而對於無障礙方面而言，Voicebox 也可以對聲帶受損的人群提供一定的協助作用。

不過，Meta表示Voicebox AI 模型目前仍處於研發階段。Meta 表示，他們意識到這種人工智慧技術在虛假偽造方面，可能會帶來潛在危害。事實上，在新聞上也已經聽過有些詐騙集團利用與本人幾乎一樣的聲音來進行詐騙的案例出現過了，因此 Meta 目前正在努力找到一種有效的方式來區分真實語音和由 Voicebox 生成的音訊，在找到解決方案前，暫時不會向公眾公開提供。