Facebook新AI模型M2M-100無需依賴英語中介，可以直接在100種語言中直接對譯

機器翻譯器正成為現代人生活中必不可少的工具。

不管你在世界的哪個地方，美國、巴西、法國或者亞洲的婆羅洲島，借助機器翻譯，谷歌和Facebook這類軟體都可以把平台上的幾乎任何文字內容都翻譯成當地語言。

不過你可能不知道的是，多數翻譯系統都是將英語作為中介語言來進行的翻譯工作。也就是說，在把中文翻譯成法語時其實是中文先翻成英語再由英文翻成法語。

這麼做的原因是因為英語翻譯的數據集（包括譯入和譯出）非常多而且容易獲得。但是用英語作為中介語整體上降低了翻譯的準確性，同時讓整個流程更加複雜臃腫。

例如在Facebook上，單是News Feed這一項服務，Facebook就需要每天進行大約200億次翻譯。

針對這些問題，最近，Facebook開發了新的機器翻譯模型，可以不借助英語直接做到兩種語言的雙向互譯，而且新模型在BLEU評估演算法下的得分比傳統的借助英語的模型還高了10分。

We’re introducing M2M-100, the first multilingual machine translation model that translates between any pair of 100 languages without relying on English data. We’ve open sourced the model, training, & evaluation set up. Learn more https://t.co/9nszUF5nTj #t9n #machinetranslation pic.twitter.com/57kqbParp1
— Facebook AI (@facebookai) October 19, 2020

Facebook的新模型被稱作M2M-100，Facebook宣稱它是第一個多語言機器翻譯模型，可以直接在100種語言中的任何一對之間來回翻譯。Facebook AI構建了一個共計由100種語言的75億個句子組成的龐大數據集。使用這個數據集，研究團隊訓練了一個擁有超過150億個參數的通用翻譯模型，據Facebook的一篇部落格描述，該模型可以「獲取相關語言的信息，並反映出更多樣化的語言文本和語言形態」。

「主要的挑戰在於，我們如何利用我們的翻譯系統，確實地去滿足全世界各地人們的需求，」Facebook AI的助理研究員Angela Fan在採訪中表示。「你得翻譯所有的語言，涉及人們會遇到的各種需求。比如說，世界上有很多地方，當地人會使用多種語言，而英語不在其中，但現有的翻譯系統卻嚴重依賴英語。」她還指出，在Facebook平台上每天以160種語言發佈的數十億條發文中，有三分之二是英語以外的語言。

為了做到這一點，Facebook需要使用各種新技術從世界各地收集大量公開數據。「這裡頭很多工作其實建立在我們在Facebook多年研究的基礎之上，就像不同的樂高積木，我們有點像是把積木拼在一起來構建今天的系統，」Fan解釋道。

該團隊首先採用CommonCrawl來從網路上收集文本範例，這是一個開放的網路抓取數據庫。然後他們著手用FastText來辨識文本所屬的語言，後者是Facebook幾年前開發並開源的文本分類系統。「這個系統基本上是看一些測試然後嘗試判定文本是用什麼語言寫的，」Fan說，「這樣我們就把一堆網路文本按照不同的語言分開了，接下來我們的目標是辨識對應的句子。」

「傳統上，人們使用人類譯員來創建翻譯數據，」她繼續說道，「這很難大規模來做，比如，你很難找到同時講英語和泰米爾語的人，同時講法語和泰米爾語的就更難了，非英語翻譯仍舊是一個有待加強的領域。」

為了大規模挖掘必需數據，Fan的團隊重度依賴LASER系統。「它讀取句子，抓取文本並構建文本的數學表示，具有相同意思的句子將被映射到同一個意涵裡，」她解釋道，「如果我有一句中文和一句法文，說的是同一件事，它們就會像文氏圖（Venn diagram）一樣有所交疊——交疊區域我們就認為是一組對應的句子。」

當然，不是所有語言都有大量的文字內容在網上。

遇到這些情況，Fan的團隊使用單語言數據來改進。以中文譯法文為例，Fan解釋道：「如果我的目標是翻譯中文為法文，但是因為某些原因，達不到足夠好的翻譯品質，那麼我可以試著用法文的單語言數據來做改進。我要做的是訓練一個反過來的系統：從法文到中文。比如我從維基百科上取得所有的法文，然後把它翻譯到中文。」

這樣一來就有了大量的機器翻譯生成的「人工合成」語料。Fan說，「有了這些從法文反向譯過來的『人工合成』的中文之後，我可以把這些數據加在我的前向模型裡。也就是我用原來的中文數據加上這個補充出來的『合成』數據，然後再把它們都譯成法文。由於新加了很多例句——在輸入和輸出兩端都有——模型會更加強大。」

這個項目是否會產生一條「數位巴別魚」，能在全球6200多種口語之間進行無損翻譯，還有待觀察。Fan指出，這個項目的最終成功取決於AI能夠利用的資源量。對於法語、漢語、德語、西班牙語和印地語等主要語言，資源是巨量的。「人們用這些語言在網路上寫了大量的文字，」她說，「他們能貢獻大量數據，我們的模型可以利用這些數據變得更好。」

「對於資源非常少的語言，我個人確定了很多我們可能需要改進的語言類別，」Fan繼續說道。「對於非洲語言，我們在史瓦希利語和南非荷蘭語方面相當不錯，我們可以在像祖魯語這樣的語言上進行很多改進，在這些語言上我們需要面對額外的研究挑戰。」

M2M-100的GitHub程式碼連結：Beyond English-Centric Multilingual Machine Translation
相關論文：Beyond English-Centric Multilingual Machine Translation
資料來源：Facebook's new AI can translate languages directly into one another
本文授權轉載自大數據文摘