中國AI同步口譯被質疑，不過目前Google的即時同步翻譯是否有可能趕上人類呢?

Google在某些語言上，的確在文字對文字的翻譯上呈現出了相當的精準度，但由於環境噪聲和特定口音、俗語、熟語資料缺乏，導致語音即時翻譯並不精準。

▲ 即時翻譯最初僅限於支援Pixel Buds，但現在可用於任何支援Google Assistant的耳機

據連線雜誌報導，中國語音辨識公司科大訊飛捲入的「AI同步口譯造假」風波依然還在發酵，引發了人們關於AI即時翻譯技術的更多關注。

不久前，Google 悄悄改變了Pixel Buds耳機的支援網頁，並寫道:「所有經過Google Assistant最佳化的耳機和Android手機，現在都可以使用Google 翻譯。」先前，這一功能僅限於Pixel Buds耳機和Pixel手機使用者。儘管Google 並未大張旗鼓地宣佈這個消息，但這個小小的調整卻值得注意。

要知道其中原因，首先我們來瞭解下Google 耳機的歷史。Google 去年推出了無線耳機Pixel Buds，此前該公司曾大肆宣傳過這款產品，稱其是一款革命性的工具，支援即時翻譯功能。只要輕敲Pixel Buds，說「幫我說」，它就會打開你手機上的Google 翻譯App。現在，Pixel手機也同樣支援這個功能。

接著，你可以說出句子，Google 翻譯會在手機上將其翻譯成指定的語言，並進行轉錄，然後讀出來。理論上，Google 的新技術甚至會讓口譯翻譯們擔心丟掉工作。這款產品在許多Google發表會的舞台上的即時翻譯示範獲得了巨大成功，但當其開始實際出貨到消費者手上時，人們對其似乎產生了懷疑：翻譯的品質沒有達到公眾的預期。

科技網站Tech Insider用十種不同的語言對即時翻譯功能進行了測試。它成功地翻譯了些基本問題，比如「最近的醫院在哪裡」，但當句子變得更複雜，或者說話人有口音時，翻譯就會出現錯誤。評論員們得出的結論是，即時翻譯似乎有點「欺騙嫌疑」，Google Assistant需要努力理解對它說出的話。

消費技術資深分析師丹尼爾‧格里森（Daniel Gleeson）說:「掌握自然語言是非常困難的。對於Google 來說，這將是個巨大的成就，而他們實現這個目標的那一天，可以自豪地大聲說出來。」或許有些人可能會說，這可能也是Pixel Buds支援網頁更新的訊息被隱藏起來的原因。

Google 的問題不在於翻譯過程本身，事實上，該公司在過去幾年始終在提升其翻譯App水準。2016年，Google 將其Google 翻譯轉換為基於深度學習的人工智慧（AI）驅動系統。在此之前，該工具將每個單獨的單詞分別翻譯，並App語言學規則使句子在語法上保持正確，從而導致了我們非常熟悉的、支離破碎的翻譯效果。另一方面，神經網路則將句子作為一個整體來考慮，並根據之前訓練過的大量文本資料來猜測正確的輸出結果。透過機器學習，這些系統能夠考慮句子的上下文，進而提供更準確的翻譯。

整合機器學習是Google Brain團隊的任務，該團隊是Google 專門致力於深度學習研發的部門。Google Brain還將神經網路App到另一個工具上，這是即時翻譯的關鍵，但這似乎也導致其容易在語音辨識上犯錯。實際上，Google Assistant經過了數小時的語音培訓，它會使用機器學習工具來辨識模式，並最終正確地辨識出被要求翻譯的內容。

那麼，如果Google 在某種程度上成功地將神經網路App到文字-文字的翻譯中，為什麼Google Assistant仍然不能使用相同的技術精準地進行語音辨識呢？劍橋大學自然語言處理研究人員馬西基‧霍瓦特（Matic Horvat）說，這一切都歸結於用來訓練神經網路的資料庫。

霍瓦特說:「系統能夠適應它們所得到的訓練資料庫。當你把它介紹給它從未聽過的東西時，語音辨識的品質就會下降。例如，如果你的訓練資料庫是會話語音，那麼在繁忙的環境中辨識語音效果就不會太好。」

干擾是任何致力於提高語音辨識技術的電腦科學家的剋星。去年，Google 透過其數位新聞創新基金會向倫敦初創企業Trint投資1.5億歐元，該公司在自動語音轉錄方面處於領先地位，儘管其演算法與Google 不同。然而，Trint的算法在處理基本的干擾問題上並沒有表現得更好。

事實上，Trint的公司網站專門用了長長的篇幅來介紹如何在安靜環境中記錄演講內容。該公司聲稱，其操作存在5%至10%的誤差，但它明確表示，這適用於安靜環境的錄音。Trint首席執行長傑夫‧科夫曼（Jeff Kofman）說:「最大的挑戰是向我們的使用者解釋，我們的表現只能和他們給我們的聲音檔一樣好。在有回聲、噪音甚至重音的情況下，演算法就會出錯。」

現場演講所帶來的挑戰意味著，在創建神經網路的過程中，訓練過程是成本最高、耗時最長的部分。而像Google 對Pixel Buds所做的那樣，只在有限數量的設備上支援即時翻譯，當然無助於系統學習。實際上，它處理的語音越多，它可以向演算法中添加的資料就越多，機器就越能學會辨識不熟悉的語音模式。

對於消費技術資深分析師格里森來說，這是Google 將該功能擴展到更多軟體的原因之一。他表示:「語音辨識中最棘手的問題之一，就是收集足夠的特定口音、俗語、熟語資料，所有這些都是高度區域化的。將這個功能僅用於Pixel上，永遠不會讓Google 接觸到那些區域化資料，進而也無法處理足夠多的資料。」

然而，積累資料也有不利的一面。表現最好的神經網路是那些擁有最多資料的網路，但由於資料需要在CPU上處理，CPU的壓力也會隨著訊息量的增多而增加。這類CPU還遠未達到與行動設備完美整合的程度，使得即時語音處理在今天依然無法成為現實。實際上，每次使用Google Assistant時，語音訊息都會被發送到資料中心進行外部處理，然後再發送回使用者的手機上。這些計算工作都不是在本地完成的，因為現有的手機無法存儲神經網路處理語音所需的龐大資料。

霍瓦特說，雖然Google Assistant能夠相當快地完成這一過程，但距離即時語音辨識還有很長的路要走。該公司目前面臨的挑戰之一是，如何在手機中整合神經網路處理，以提高即時翻譯等功能的無縫性。事實上，開發人員已經在致力於開發適合於高效處理神經網路的小型外部晶片，這種晶片可以整合到手機中。例如，本月早些時候，華為宣佈了一種AI晶片，該公司聲稱其可以在幾分鐘內訓練好神經網路算法。

雖然Google 有自己的晶片Edge TPU，但它是為企業使用者而不是智慧型手機設計的。對霍瓦特來說，這是它的致命弱點：作為一家軟體公司，Google 對製造商沒有多少控制權，無法確保開發出一種產品，使所有Android設備都能使用本地神經網路處理，與蘋果截然不同。

在不久的將來，Google 可能被迫採取更小的步驟來改進其語音辨識技術。雖然即時翻譯引來了許多批評，但對於行業分析師、Counterpoint物聯網、行動和生態系統研究主管尼爾‧沙赫（Neil Shah）來說，擴展它有益於Google 參與競爭:「Google 已經獲得20億Android使用者。隨著越來越多的使用者開始在Android手機上使用最新的語音互動，它能夠比競爭對手更快地擴大規模，並接受大量輸入資料流的訓練。」

格里森所也贊同這種看法。無論對即時翻譯的評論是否堅持溫和嘲諷的基調，Google 的舉動最終都會帶來顯著的改進。就像所有的AI產品一樣，這個工具同樣需要學習，它進入市場的過程還沒有完成。格里森表示:「人們可能會說，Google 的即時翻譯運作方式與承諾的不一樣，但這是其實現目標的唯一途徑。」口譯翻譯現在不必擔心他們會立馬丟掉工作。

資料來源：Why is Google's live language translation so bad? We asked some experts
本文授權轉載自網易科技