巴別魚可望成真！Google推出端到端語音翻譯技術，還能模仿你說話

40年前，英國科幻作家道格拉斯·亞當斯（Douglas Adams）在他的《銀河便車指南》中這樣描述巴別魚（bable fish）：迷你黃色生物，水蛭狀，以聲音中的語言概念為食，消化後排出跟寄主同頻的腦波。只要塞到耳朵裡去，就可以聽懂各種語言。自小說誕生，「巴別魚」便成為了即時語音翻譯的代名詞。但在當時，人類的翻譯技術距離這一目標仍遙不可及。

「這是全宇宙最奇特的生物。」

40年前，英國科幻作家道格拉斯·亞當斯（Douglas Adams）在他的《銀河便車指南》中這樣描述巴別魚（bable fish）：迷你黃色生物，水蛭狀，以聲音中的語言概念為食，消化後排出跟寄主同頻的腦波。只要塞到耳朵裡去，就可以聽懂各種語言。

而在這個充滿嬉皮風格的科幻作品中，來自地球的Arthur Dent也因為這條醜陋的魚，能夠完美地理解並與他遇到的各種外星種族交流。

自小說誕生，「巴別魚」便成為了即時語音翻譯的代名詞。但在當時，人類的翻譯技術距離這一目標仍遙不可及。

直到2014年，加拿大蒙特利爾大學的Kyunghyun Cho、Yoshua Bengio等人發佈了一篇在機器翻譯領域應用神經網路的論文——Neural Machine Translation by Jointly Learning to Align and Translate。

神經網路的出現，讓優質高效的機器翻譯不再遙遙無期。

每次技術的突破都讓我們離巴別魚更近一步，直到今天，谷歌的發佈了一項新研究Translatotron，這是一種可以實現端到端（End to end）的語音轉語音的翻譯技術。該工具放棄了將語音翻譯成文本再返回語音的步驟，可以直接從一種語言轉換稱另外一種語言，並同時保持說話著的語調和節奏。

告別Siri，我們先來感受一下翻譯的調調：

通過結合揚聲器編碼器網路，使得Translatotron能夠在翻譯的語音中保留原始揚聲器的聲音特徵，這使得翻譯的語音聽起來更自然，更少刺耳。

這個功能利用了谷歌之前specker verification 和 speaker adaptation for TTS 的研究。揚聲器編碼器在specker verification任務上預先訓練，學習從簡短的示範例句話語對揚聲器特性進行編碼。即使內容是不同的語言，該編碼上調節頻譜圖解碼器也可使得合成具有類似揚聲器特性的語音。