Google與Mozilla正在展開一場競賽：比誰收集的人類語音數據多

想要製造完美的語音助手，首先你得有足夠大的語音資料庫。Google與Mozilla因此正在展開一場競賽：收集世界各地不同語言、不同口音人們的語音片段。

語音控制助手 Siri、Alexa、Cortana、GoogleHome 有多好，實際上是由背後的大數據資料庫訓練而來的。透過訓練程式，讓這些語音助手理解用戶所說的話，而這需要許多許多真實世界的樣本，也就是人類說話的樣本。

正因如此，在競爭中老牌語音識別技術公司佔據優勢，因為它們積累了大量樣本語音數據，可以用來訓練語音助手。而後來進入市場的創業公司也想參與競爭，沒有語音資料怎麼辦？它們必須找到屬於自己的語音檔案資料。如何找？傳統的方法是，從現有影音檔案中提取，比如從TED Talk中轉化提煉出300小時的語音資料庫。

卡耐基梅隆大學研究教授 Alexander Rudnicky 說，開發者要進入到能讓語音助手訓練的語音資料，這些資料至少需要長達幾百或者幾千小時。

因此，Google 於本月開放一個透過全球用戶收集而來的語音記錄資料庫。這個資料庫裡面有65000段1秒音訊，裡頭包含全球各地用戶所說的簡單語音命令，比如：是的、不是的、停止、前進等等。

無獨有偶，就在幾週前，火狐瀏覽器的Mozilla也推出一個新計畫，名叫 Common Voice。它們的目標是構建一個免費使用的語音樣本資料庫，樣本來自全球各地，人們所說的樣本詞彙和句子。

Google 的語音資料庫是隸屬於 AIY 人工智慧計畫的一部分，這個計畫相當於 DIY 人工智慧計畫，有了它製作者用機器學習做實驗會變得更容易。軟體工具工程師 Pete Warden 在聲明中介紹說：「我們創造語音資料的基礎架構已經開放，希望能有更多的社群用它製作自己的資料，為那些服務不足的語言和應用程式創建資料。」

語音資料的容量超過1GB，Google 收集了許多語音資料訓練 AI 系統，本次開放的資料只是其中的很小一部分。Google 還曾開放自動目錄助手服務，它是 Google 收集人類語音資料的一種主要方法。

Mozilla 新興技術高級副總裁 Sean White 說：「根據這些系統開發時，我們發現在演算法領域我們可以站在其它人的工作成果之上開發，拿出自己的演算法創新成果，然而管理數據、生成數據、聚合數據卻是一大挑戰。如果你想開發新的語音識別系統，想找到可以使用的高質量數據是一件很難的事。」

Common Voice 邀請每一個人加入，只要能上網、有麥克風就可以閱讀特定句子，將簡短的語音記錄提交上去，所有一切只需要在 Web 瀏覽器上按幾下、觸擊幾下就能完成。Google 的計畫大體也是這樣執行的，只是 Common Voice 要求大家提交完整的句子錄音，而 Google 只要求提交特定單詞或者數字，這些單詞和數字在命令中經常使用。句子有的是貢獻者提交的對話短語，還有引文，比如電影中出現的話語。Mozilla 要求參與者提供一些基本統計訊息，比如年齡、性別、所說英語的類型。

在最開始的57天裡項目收集了30.7萬段記錄，每段語音長3-5秒。Mozilla 開放創新團隊首席策略師 Michael Henretty 說，記錄加在一起相當於340-510小時的語音，

Michael Henretty 說：「時長已經超過TED演講，它是現有最大的開源資料庫之一。」

Mozilla 的目標是推出一個語音資料庫，希望到時裡面有10000小時的音訊，按照公司的估計，如果數據的數量達到這樣的水平，就可以訓練高質量現代系統。Google 剛剛開放的資料庫只有18小時記錄，Mozilla 的數據多得多。

現有開源資料庫都有自己的偏見，例如，有一個數據資料庫叫作 Swithboard 會話數據資料庫，它是德儀收集的，現在已經歸賓夕法尼亞大學 Data Consortium 所有，這個資料庫對美國中西部的語音存在偏見。在人工智慧的其它領域，偏見資料也是一個問題，一些演算法識別白人的臉很精準，如果非洲裔美國人在 Twitter 上用英文發消息，它們卻難以理解；科技企業和開源項目對此很擔心，它們希望服務多樣化。

Mozilla 還會邀請用戶對提交的樣本進行驗證，他們要傾聽樣本，確保記錄正確。

Tatman 說，流行語音助手服務開發商大多沒有開放內部記錄並非全是因為競爭。有許多詢問包含了個人訊息，比如 Internet 搜尋記錄，發送的訊息，它可能會洩露用戶隱私。個體語音是有特點的，根據語音可以確定個體的身份。

儘管如此，企業願意在內部使用數據：蘋果之前曾說過，它會保留 Siri 數據，保留之時會將身份訊息剔除，比如 ID 號碼、郵件地址，保留時間最多2年，用來改進算法。

Tatman 說：「你的語音是可以識別的，它是身份訊息。」

Mozilla 也在採取措施保護用戶隱私，它收集開源語音數據。Mozilla 說：「我們花了很大的精力將用戶與記錄分離，確保裡面沒有個人身份訊息。」

Mozilla 資料庫相比現有公共記錄（比如TED演講內容）有一個優勢：資料是在用戶真正使用語音識別軟體工具的環境下記錄的，和 Siri、Alexa 裝置的聲音樣本相似。

Rudnicky 說：「從根本上講，他們用瀏覽器收集資料，也就是說他們收集的資料會有不同的特點，這些特點能夠代表目標用戶，告訴我們他們是怎樣的。我坐在辦公室，拿起特殊麥克風，它可能是用於桌面環境的麥克風，以及類似的東西。」

Henretty 說：「我們正在努力編織一張儘可能大的網。」