2013.09.22 10:05

重建巴別塔,Google 翻譯與語言壁壘

ADVERTISEMENT

目前,Google 翻譯可以在 71 種語言中互譯,也可以進行網頁翻譯,手機端也有相關app。這項 Google 翻譯服務在去年已經被使用了 2 億次,目前還是免費的,但是翻譯作為一種服務和工作,其未來商機也不容小覷。

▲傳說中的巴別塔()

《聖經》中,講到了各種不同語言的來歷。人類希望建造一座名為「巴別塔」的高塔通往天堂,上帝感到事情不妙,於是讓人類說不同的語言,造成人類無法溝通,合作建塔計畫宣告失敗,人類也開始四分五裂。

ADVERTISEMENT

語言不通確實對合作溝通造成了不小的負面影響,翻譯也成了一項還不錯的工作選擇,同步口譯的人材更是難找。另一方面,隨著電腦網路技術以及資料技術的進步,機器翻譯也有了用武之地。Google 翻譯服務就是其中代表。

Google 翻譯團隊負責人 Franz Josef Och 來自德國西南部的一個小山村,他的終極目標是製造出一台完美的翻譯機器,小巧精緻,快速準確,適用性廣泛的翻譯機器。在他年少時,就夢想這台機器能夠模仿人類的特性。後來他獲得電腦科學博士學位,研究人工智慧,在 2004 年被 Google 聯合創始人 Larry Page 拉入公司,成立 Google 翻譯團隊。

Google 實驗室裡有著各種稀奇古怪的專案和目標,Google 翻譯的目標則是終結人類語言的壁壘,雖然 Google 翻譯離這個目標還差了很遠。

ADVERTISEMENT

目前,Google 翻譯可以在 71 種語言中互譯,也可以進行網頁翻譯,手機端也有相關app。這項 Google 翻譯服務在去年已經被使用了 2 億次,目前還是免費的,但是翻譯作為一種服務和工作,其未來商機也不容小覷。

Google 作為一個工程師氣質非常明顯的公司,對於演算法的依賴非常之重,包括其完善學習過程也是通過收集處理資料來完成的。比如說,在把一句法語翻譯德語的過程中,它將在電腦中搜尋匹配的短語,然後基於資訊進行最佳搭配。通過演算法當然是非常高效的,但是語言並不一件簡單的事物。在 Google 翻譯過程中,語法、語調和歧義仍然是難以解決的問題。通常情況下,Google 翻譯的句子僅能提供大義,但是別指望它有什麼流暢度和語言上的美感。

在 Google 看來,站在翻譯程式的角度,在語言結構、語法還有構詞法方面有著大量資料可供挖掘。Google 翻譯團隊也是典型的工程技術人員組成,卻很少有語言學家,不得不說這是一件很奇異的事情。

ADVERTISEMENT

不僅僅是 Google,Facebook 和微軟也在進行類似的機器翻譯項目,歐盟在進行 MT@EC 項目,預計在未來幾年內將減少 10 %的人工翻譯量。

跟一般人工翻譯不同,機器翻譯勝在效率,但是目前的機器翻譯流暢性、準確性和文學性仍然是一塌糊塗的程度。


▲「我該把你比擬做夏天嗎?你比夏天更可愛,更婉約」

ADVERTISEMENT

上面選取了莎士比亞十四行詩第十八首中的一句,然後用 Google 翻譯進行翻譯,翻譯結果只能說是讓人不知所云。Google 看重的數據和演算法在莎翁的名句之下毫無用武之地。

以數據和演算法方式做翻譯可以讓翻譯系統會隨著資料的積累而不斷地學習改進,但以 Google 翻譯為代表的機器翻譯離摧毀語言壁壘重建巴別塔的目標還有極遠的路程。

我相信以後機器翻譯適用性會比現在好很多,通順準確的目標可以達到。但我懷疑,Google 這種純工程師思維的翻譯方式只能讓語言翻譯停留在傳遞語義的層次,而語言中蘊含的情感和美感始終無法被代碼所理解。

Jelinek 那句「我每開除一名語言學家,我的語音辨識系統錯誤率就降低一個百分點」的名言這裡有必要再思索一番了。

延伸閱讀:

 

ADVERTISEMENT