Google與Mozilla正在展開一場競賽:比誰收集的人類語音數據多

Google與Mozilla正在展開一場競賽:比誰收集的人類語音數據多

想要製造完美的語音助手,首先你得有足夠大的語音資料庫。Google與Mozilla因此正在展開一場競賽:收集世界各地不同語言、不同口音人們的語音片段。

語音控制助手 Siri、Alexa、Cortana、GoogleHome 有多好,實際上是由背後的大數據資料庫訓練而來的。透過訓練程式,讓這些語音助手理解用戶所說的話,而這需要許多許多真實世界的樣本,也就是人類說話的樣本。

正因如此,在競爭中老牌語音識別技術公司佔據優勢,因為它們積累了大量樣本語音數據,可以用來訓練語音助手。而後來進入市場的創業公司也想參與競爭,沒有語音資料怎麼辦?它們必須找到屬於自己的語音檔案資料。如何找?傳統的方法是,從現有影音檔案中提取,比如從TED Talk中轉化提煉出300小時的語音資料庫。

卡耐基梅隆大學研究教授 Alexander Rudnicky 說,開發者要進入到能讓語音助手訓練的語音資料,這些資料至少需要長達幾百或者幾千小時。

因此,Google 於本月開放一個透過全球用戶收集而來的語音記錄資料庫。這個資料庫裡面有65000段1秒音訊,裡頭包含全球各地用戶所說的簡單語音命令,比如:是的、不是的、停止、前進等等。

無獨有偶,就在幾週前,火狐瀏覽器的Mozilla也推出一個新計畫,名叫 Common Voice。它們的目標是構建一個免費使用的語音樣本資料庫,樣本來自全球各地,人們所說的樣本詞彙和句子。

Google 的語音資料庫是隸屬於 AIY 人工智慧計畫的一部分,這個計畫相當於 DIY 人工智慧計畫,有了它製作者用機器學習做實驗會變得更容易。軟體工具工程師 Pete Warden 在聲明中介紹說:「我們創造語音資料的基礎架構已經開放,希望能有更多的社群用它製作自己的資料,為那些服務不足的語言和應用程式創建資料。」

語音資料的容量超過1GB,Google 收集了許多語音資料訓練 AI 系統,本次開放的資料只是其中的很小一部分。Google 還曾開放自動目錄助手服務,它是 Google 收集人類語音資料的一種主要方法。

Mozilla 新興技術高級副總裁 Sean White 說:「根據這些系統開發時,我們發現在演算法領域我們可以站在其它人的工作成果之上開發,拿出自己的演算法創新成果,然而管理數據、生成數據、聚合數據卻是一大挑戰。如果你想開發新的語音識別系統,想找到可以使用的高質量數據是一件很難的事。」

Common Voice 邀請每一個人加入,只要能上網、有麥克風就可以閱讀特定句子,將簡短的語音記錄提交上去,所有一切只需要在 Web 瀏覽器上按幾下、觸擊幾下就能完成。Google 的計畫大體也是這樣執行的,只是 Common Voice 要求大家提交完整的句子錄音,而 Google 只要求提交特定單詞或者數字,這些單詞和數字在命令中經常使用。句子有的是貢獻者提交的對話短語,還有引文,比如電影中出現的話語。Mozilla 要求參與者提供一些基本統計訊息,比如年齡、性別、所說英語的類型。

在最開始的57天裡項目收集了30.7萬段記錄,每段語音長3-5秒。Mozilla 開放創新團隊首席策略師 Michael Henretty 說,記錄加在一起相當於340-510小時的語音,

Michael Henretty 說:「時長已經超過TED演講,它是現有最大的開源資料庫之一。」

Mozilla 的目標是推出一個語音資料庫,希望到時裡面有10000小時的音訊,按照公司的估計,如果數據的數量達到這樣的水平,就可以訓練高質量現代系統。Google 剛剛開放的資料庫只有18小時記錄,Mozilla 的數據多得多。

現有開源資料庫都有自己的偏見,例如,有一個數據資料庫叫作 Swithboard 會話數據資料庫,它是德儀收集的,現在已經歸賓夕法尼亞大學 Data Consortium 所有,這個資料庫對美國中西部的語音存在偏見。在人工智慧的其它領域,偏見資料也是一個問題,一些演算法識別白人的臉很精準,如果非洲裔美國人在 Twitter 上用英文發消息,它們卻難以理解;科技企業和開源項目對此很擔心,它們希望服務多樣化。

Mozilla 還會邀請用戶對提交的樣本進行驗證,他們要傾聽樣本,確保記錄正確。

Tatman 說,流行語音助手服務開發商大多沒有開放內部記錄並非全是因為競爭。有許多詢問包含了個人訊息,比如 Internet 搜尋記錄,發送的訊息,它可能會洩露用戶隱私。個體語音是有特點的,根據語音可以確定個體的身份。

儘管如此,企業願意在內部使用數據:蘋果之前曾說過,它會保留 Siri 數據,保留之時會將身份訊息剔除,比如 ID 號碼、郵件地址,保留時間最多2年,用來改進算法。

Tatman 說:「你的語音是可以識別的,它是身份訊息。」

Mozilla 也在採取措施保護用戶隱私,它收集開源語音數據。Mozilla 說:「我們花了很大的精力將用戶與記錄分離,確保裡面沒有個人身份訊息。」

Mozilla 資料庫相比現有公共記錄(比如TED演講內容)有一個優勢:資料是在用戶真正使用語音識別軟體工具的環境下記錄的,和 Siri、Alexa 裝置的聲音樣本相似。

Rudnicky 說:「從根本上講,他們用瀏覽器收集資料,也就是說他們收集的資料會有不同的特點,這些特點能夠代表目標用戶,告訴我們他們是怎樣的。我坐在辦公室,拿起特殊麥克風,它可能是用於桌面環境的麥克風,以及類似的東西。」

Henretty 說:「我們正在努力編織一張儘可能大的網。」

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則