三千年前的古文字被AI破譯,MIT和Google開發失傳語言的機器翻譯系統

三千年前的古文字被AI破譯,MIT和Google開發失傳語言的機器翻譯系統

1886年,英國考古學家亞瑟‧伊萬斯偶然間發現了一塊刻印著未知語言的石頭。得知這塊石頭來源於地中海的克里特島後,伊萬斯馬上動身前往此處以搜尋更多證據。在那裡,他馬上就發現了許多筆跡相似的石碑,這些石碑能追溯到西元前1400年左右,這些刻字也就成為目前發現的最早的書寫形式之一。伊萬斯表示,這種線形形式是從早期藝術中粗糙的線條畫演變而來,在語言史上佔有重要地位。

三千年前的古文字被AI破譯,MIT和Google開發失傳語言的機器翻譯系統

伊萬斯等人後來證實,石碑上的刻字是兩種不同的文字系統。稍古老的一種稱為線形文字A,可以追溯到西元前1800年至1400年,此時克里特島還處於青銅時代的邁諾斯文明階段。時間上更近一點的文字系統稱為線形文字B,西元前1400年後才出現,此時的克里特島正被希臘大陸的邁錫尼人統治著。

許多年來,伊萬斯等人一直試圖翻譯這些古老的文字,但都無疾而終。

這個問題直到1953年,一個名叫邁克爾‧文特里斯的業餘語言學家成功翻譯線形文字B之後,才得到解決。

兩個假設

文特里斯的成功建立在兩個決定性突破上。第一,他假設線形文字B中重複出現的詞語是克里特島的地名——這在其後被證明是正確的。第二,他假設這些刻字是古希臘語的早期形式——這讓他能夠立即翻譯出線形文字B的其他部分。在翻譯過程中,文特里斯表示,古希臘語的書面表達形式比之前預想的還要早幾個世紀。

文特里斯的工作成果是一項巨大的成就。但像線形文字A這樣的更為古老的文字系統,到今天為止仍然是語言學上一個亟需解決的難題。

三千年前的古文字被AI破譯,MIT和Google開發失傳語言的機器翻譯系統

透過機器學習繪製特定語言的聯結

不難想像,近年來機器翻譯的最新進展對此有所幫助。

短短幾年內,註釋資料庫和讓機器從中學習的技術讓語言學習發生了革命性變化,這使得機器翻譯變得越來越普遍。儘管翻譯品質有待提高,但這也提供了思考語言的一個全新角度。

來自麻省理工學院的羅家明(音譯)和雷吉納‧巴爾齊萊,以及來自加州山景城谷歌人工智慧實驗室的曹源(音譯),由他們組成的團隊研發出了能夠翻譯失傳語言的機器學習系統,並且使其翻譯線形文字B——第一次完全自動翻譯——證明了系統可行性。

他們所利用的方法與標準機器翻譯技術有著顯著區別。首先需要知道,不管哪種語言,機器翻譯的關鍵都在於認識到文字間聯結的相似性。因此整個過程是從繪製特定語言的聯結開始,這需要龐大的文本資料庫,機器在這個文本資料庫中查驗每個字符與其他字符在多大頻率上聯結在一起。這種表現非常獨特,它在多重參數空間上定義了這個詞語。實際上,這個詞語可以視為空間內一個向量,這個向量在機器對任何語言的翻譯結果中都起到重要的約束作用。

這些向量遵循著簡單的數學規則,舉例而言,國王(king)-男性(man)+女性(woman)=王后(queen)。所以,一句話可以認為是由一系列向量排列形成的一條跨越空間的軌跡。

完全對應地翻譯

機器翻譯的關鍵洞見在於,不同語言中的詞語在各自的參數空間內占據著相同位置。這使得一種語言能夠完全對應地被翻譯成另一種語言。在這個意義上,翻譯句子就變成尋找那些跨越空間的相似軌跡的過程,機器甚至不需要「知道」句子的具體含義。

這個過程需要依賴大資料集。但幾年前,德國的一個研究者團隊利用小型資料庫協助翻譯缺少大型文本資料庫的稀有語言,其中的竅門在於找到一種除資料庫之外能夠約束機器的方法。

利用語言進化的約束

羅家明團隊已經進一步展示了機器是怎樣翻譯一門失傳語言的,他們使用的約束與語言隨時間的變化相關。任何語言都是以某種方式變化的,比如,親屬語言中的符號以相似的分佈出現,相關詞語有相同順序的字符,等等。有了這些規則的約束,如果已知某種古老的語言形式,那麼翻譯就會輕鬆許多。

羅家明團隊利用這項技術測試了兩種失傳語言,線形文字B和烏加里特語。語言學家已經知道,古希臘語的早期形式是由線形文字B編碼得到,而在1929年發現的烏加里特語則是希伯來語的早期形式。

利用這些訊息和語言進化的約束,羅家明團隊研發的機器能夠以相當高的準確度完成上述兩種語言的翻譯。「我們能夠正確地將67.3%的線形文字B中的同源詞翻譯成對應的希臘語」,他們說,「據我們所知,本次實驗是最早嘗試自動翻譯線形文字B的。」而出色的工作成果將機器翻譯提高到新的水準。但這也引發了關於其它失傳語言的疑問——尤其是從未被翻譯過的語言,如線形文字A。

在這篇文章中,線形文字A的缺席顯而易見,羅家明團隊甚至沒有提及線形文字A,但和所有語言學家一樣,它肯定在他們心中揮之不去。不過可以確定的是,在線形文字A能夠被機器準確翻譯之前,我們還需要一些重要的突破。舉個例子,沒人知道線形文字A編碼了哪種語言,將它翻譯成古希臘語的嘗試都失敗了。如果不知道祖語言,新技術也起不了作用。

但是基於機器的方法存在一個明顯的優勢,機器可以快速而不知疲倦地對每種語言進行測試。因此羅家明團隊或許可以用一種粗暴的方法攻克線形文字A的翻譯難關——嘗試將它翻譯成機器已經掌握的每種語言。如果最終成功,那一定是一項偉大的成就,一項足以另邁克爾‧文特里斯讚嘆不已的成就。

bigdatadigest
作者

大數據文摘(bigdatadigest)成立於2013年7月,專注數據領域資訊、案例、技術,在多家具有影響力的網站、雜誌設有專欄,致力於打造精準數據分析社群。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則