重建巴別塔,Google 翻譯與語言壁壘

重建巴別塔,Google 翻譯與語言壁壘

目前,Google 翻譯可以在 71 種語言中互譯,也可以進行網頁翻譯,手機端也有相關app。這項 Google 翻譯服務在去年已經被使用了 2 億次,目前還是免費的,但是翻譯作為一種服務和工作,其未來商機也不容小覷。

重建巴別塔,Google 翻譯與語言壁壘▲傳說中的巴別塔(圖片來源)

《聖經》中,講到了各種不同語言的來歷。人類希望建造一座名為「巴別塔」的高塔通往天堂,上帝感到事情不妙,於是讓人類說不同的語言,造成人類無法溝通,合作建塔計畫宣告失敗,人類也開始四分五裂。

語言不通確實對合作溝通造成了不小的負面影響,翻譯也成了一項還不錯的工作選擇,同步口譯的人材更是難找。另一方面,隨著電腦網路技術以及資料技術的進步,機器翻譯也有了用武之地。Google 翻譯服務就是其中代表。

Google 翻譯團隊負責人 Franz Josef Och 來自德國西南部的一個小山村,他的終極目標是製造出一台完美的翻譯機器,小巧精緻,快速準確,適用性廣泛的翻譯機器。在他年少時,就夢想這台機器能夠模仿人類的特性。後來他獲得電腦科學博士學位,研究人工智慧,在 2004 年被 Google 聯合創始人 Larry Page 拉入公司,成立 Google 翻譯團隊。

Google 實驗室裡有著各種稀奇古怪的專案和目標,Google 翻譯的目標則是終結人類語言的壁壘,雖然 Google 翻譯離這個目標還差了很遠。

目前,Google 翻譯可以在 71 種語言中互譯,也可以進行網頁翻譯,手機端也有相關app。這項 Google 翻譯服務在去年已經被使用了 2 億次,目前還是免費的,但是翻譯作為一種服務和工作,其未來商機也不容小覷。

Google 作為一個工程師氣質非常明顯的公司,對於演算法的依賴非常之重,包括其完善學習過程也是通過收集處理資料來完成的。比如說,在把一句法語翻譯德語的過程中,它將在電腦中搜尋匹配的短語,然後基於資訊進行最佳搭配。通過演算法當然是非常高效的,但是語言並不一件簡單的事物。在 Google 翻譯過程中,語法、語調和歧義仍然是難以解決的問題。通常情況下,Google 翻譯的句子僅能提供大義,但是別指望它有什麼流暢度和語言上的美感。

在 Google 看來,站在翻譯程式的角度,在語言結構、語法還有構詞法方面有著大量資料可供挖掘。Google 翻譯團隊也是典型的工程技術人員組成,卻很少有語言學家,不得不說這是一件很奇異的事情。

不僅僅是 Google,Facebook 和微軟也在進行類似的機器翻譯項目,歐盟在進行 MT@EC 項目,預計在未來幾年內將減少 10 %的人工翻譯量。

跟一般人工翻譯不同,機器翻譯勝在效率,但是目前的機器翻譯流暢性、準確性和文學性仍然是一塌糊塗的程度。

重建巴別塔,Google 翻譯與語言壁壘
▲「我該把你比擬做夏天嗎?你比夏天更可愛,更婉約」

上面選取了莎士比亞十四行詩第十八首中的一句,然後用 Google 翻譯進行翻譯,翻譯結果只能說是讓人不知所云。Google 看重的數據和演算法在莎翁的名句之下毫無用武之地。

以數據和演算法方式做翻譯可以讓翻譯系統會隨著資料的積累而不斷地學習改進,但以 Google 翻譯為代表的機器翻譯離摧毀語言壁壘重建巴別塔的目標還有極遠的路程。

我相信以後機器翻譯適用性會比現在好很多,通順準確的目標可以達到。但我懷疑,Google 這種純工程師思維的翻譯方式只能讓語言翻譯停留在傳遞語義的層次,而語言中蘊含的情感和美感始終無法被代碼所理解。

Jelinek 那句「我每開除一名語言學家,我的語音辨識系統錯誤率就降低一個百分點」的名言這裡有必要再思索一番了。

重建巴別塔,Google 翻譯與語言壁壘

延伸閱讀:

Google的萬能翻譯機能成為未來的巴別魚嗎?

Google 語音辨識翻譯,iPhone 上也能用

Google 翻譯 惡搞發音大全懶人包

 

ifanr
作者

ifanr依托於中國移動互聯網的發展大潮,用敏銳的觸覺、出色的內容,聚焦 TMT 領域資訊,迅速成為中國最為出色的新銳科技Blog 媒體。

使用 Facebook 留言
ASIA WORLD CITY
1.  ASIA WORLD CITY (發表於 2013年9月22日 11:40)
老實說,微軟翻譯算法比Google先進很多。研發時間也比較長,只是UI很爛。雖然兩者都是統計式機器翻譯,但微軟翻譯似乎可以選擇更好的詞彙。不知道Google這次聘請大量算法專家是否能根本性改善翻譯水平,只知道Google一定要急起直追。(≧▽≦)
液態氮
2.  液態氮 (發表於 2013年9月23日 13:14)
其實這是要看~
Google的目的是要做一個溝通輔助服務,
還是文學研究輔助服務了...
如果人們是希望能夠把
「白日依山盡...」
能夠成功的翻譯成外語...
那看來勢的確還有很長的一段路要走...
勞碌命
3.  勞碌命 (發表於 2014年5月29日 10:59)
<( ̄︶ ̄)>

不同語言背後,那不同的思考模式和觀念才是真正困難的部份。
但是這也是這世界能多樣化的關鍵。
不希望為了能順利的電腦翻譯化,結果許多的文化因此消滅(被統一思想)
發表回應
謹慎發言,尊重彼此。按此展開留言規則