Google 認為「翻譯」這件事,靠演算法和大數據會比語言學更可靠一些

Google 認為「翻譯」這件事,靠演算法和大數據會比語言學更可靠一些

Google 是一家極度看重演算法、充滿工程師文化的公司,但或許你還是會為此而感到驚奇——他們認為翻譯是一個數學和統計學方面的問題。最近,位於 Google 總部的 Google Translate 團隊正迅速擴張,他們新招募了數名德國電腦科學家,但卻沒有任何一名語言學家。

Google 認為「翻譯」這件事,靠演算法和大數據會比語言學更可靠一些

我相信你已經能知道 Google 是一家極度看重演算法、充滿工程師文化的公司,但或許你還是會為此而感到驚奇——他們認為翻譯是一個數學和統計學方面的問題。最近,位於 Google 總部的 Google Translate 團隊正迅速擴張,他們新招募了數名德國電腦科學家,但卻沒有任何一名語言學家。

Google Translate 部門主管 Franz Josef Och 同樣也是德國電腦科學家出身,他不但並不精通語言學,甚至並不擅長語言學習。他認為,機器翻譯的關鍵在對數學、統計和程式設計方面的擅長。

Google Translate 團隊並不會去模仿人工翻譯的方式,這就是他們沒有去開發字典、定義語法結構和規則的原因。事實上,語法規則對目前的電腦來說仍然難以掌控。Google 更著重於以大數據和統計的方式入手,翻譯系統會不斷地調整翻譯結果的相關性並自我學習如何處理數十億的文字。通過這種方式,電腦最終能不斷優化翻譯結果。

以大數據方式做翻譯的一個好處是,翻譯系統會隨著資料的積累而不斷地改善。Google Translate 目前已經支援 71 種語言的互譯,去年用戶的使用次數已經達到 2 億次。此外,索引全球網頁的 Google 還能夠依靠網際網路上已經存在的翻譯內容改善自己的翻譯系統。

儘管如此,依賴演算法的翻譯系統仍然遠遠無法做到像人工翻譯那麼精準。句法、語調、歧義都是自動翻譯軟體很難處理的問題。Google Translate 的翻譯結果仍然只能幫助人們對陌生語言進行大致上的理解,有時候得到的翻譯結果很難讓人通順地閱讀下來。

此外,Google Translate 在不同的語系之間的翻譯結果品質也各不相同。例如,英語和西班牙語之間的互譯翻譯品質良好,英語和日語之間的互譯就不怎麼樣,英語和德語之間的互譯則非常糟糕。

儘管如此,機器翻譯有一個人工翻譯難以做到的優勢——它讓更多的人接觸到了更多的資訊。試想一下如果你舉著手機就可以與世界上任何語種的任何人交流,那會是多麼棒的體驗。

Google 認為「翻譯」這件事,靠演算法和大數據會比語言學更可靠一些

童濱 tongbin@pingwest.com

PingWest中文網
作者

PingWest是一家全球視野的尖端科技媒體,提供關於中國與美國的最尖端科技創業資訊,致力於成為溝通這兩個全球最大互聯網/移動市場的互聯網社群。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則