從阿里巴巴的語音辨識工具所犯的錯,看要教機器聽懂各地中文口音有多難

從阿里巴巴的語音辨識工具所犯的錯,看要教機器聽懂各地中文口音有多難

相信很多工作者,特別是記者或是學生,都一定有抄寫演講者或是受訪者所講的話來轉成文字的痛苦經驗。雖然說現在的Google語音輸入辨識率已經有一定的水準,不過那是你必需要在有意識的情況下,調整說話的說法才能提高成功率,如果是一整段話的中文對話或是演講,甚至是同步語音辨識,難度則要高得多。

比起像是Google語音輸入這類的中文語音辨識來說,同步中文語音辨識的困難點主要有三,第一是雜音的問題,在演講或是對話的場合,往往收音環境不像你手持手機時的狀況那麼理想,因此必需要去除雜訊,並且保持語音的完整性。

第二則是同音字的問題,中文的同音字詞很多,甚至就算是人類也必需要參考前後文才能理解,而在同步中文語音辨識的時候,就很容易發生「下面給你吃」這一類的笑話。

第三點則是腔調的問題,台灣、香港、新加坡等華文國家說的雖然都是中文,但腔調都不同,而更不用說在中國,不同省分的人說的腔調就更重了。而且,衍生出來的一些因為腔調、文化用語而產生的獨特字詞如果再考慮進去,那就更複雜了。

因此,目前來說,雖然都是說中文,Google Now、Siri、Cortana等語音助手,也都不可能直接就拿一套語音辨識模型直接套用到不同的國家上。當然更不用提即時同步中文語音辨識了。

 

「nationally」辨識成「男生弄亂」?

中國的阿里巴巴開發了一套「雲速記」技術,目標就是同步中文語音辨識。 他們在十月中的阿里雲棲大會上,還特地在馬雲的演講中用了這個技術,將馬雲的演講以字幕的形式同步顯示出來。

從阿里巴巴的語音辨識工具所犯的錯,看要教機器聽懂各地中文口音有多難

馬雲講話帶有杭州腔,不過這不是問題,因為阿里顯然有針對創辦人的杭州腔進行校準過。整場演講下來準確率在95%以上,整個系統會根據前後文進行自動校正糾錯。技術已經算相當不錯,不過其中還是發生了一些意外:

1)馬雲說「nationally」被解讀成了「男生弄亂」。馬雲是英語老師出身,他的發音是相當不錯的。不過機器仍然沒有根據語義語境識別出夾雜在中文中的英文單詞,也顯示了當語音辨識再加上多國語音辨識狀況變得更加複雜。有趣的是,當字幕翻譯與講話原意發生這種誤差的時候,會場的哄笑讓馬雲意識到了什麼,看著字幕無聲地笑著停頓了五秒鐘。

2)馬雲講了一句「剛才車省長講」,被辨識成了「鋼材車身鋼架」。這個錯誤說明,遇到一些特定語境中的專有名詞組合,比如一個姓與職務的結合,機器識別起來更加困難,甚至會影響上下文語境中其它語義。這是中文這類表意文字的侷限所在,各廠商的語音識別產品在面對表意文字時的表現普遍差於表音文字。

3)馬雲說「B2C 向 C2B」轉化的時候,機器只能識別出「B2C」,但錯把 C2B 翻譯成了「示意圖 B」。這是涉及到一個專有名詞庫豐富程度的問題。包括後面,雲速記還能識別出 AlphaGo 等名詞,也可能是因為這個單詞已經在此之前就加入到了專有名詞庫裡。

4)說數字「幾十億」的時候,字幕翻譯成了「幾 1000000000」。凡是涉及到數字的情況,雲速記一律選擇用阿拉伯數字呈現,這或許不算是什麼大問題,畢竟也算是準確的辨識出來了,不過會給看字幕的觀眾帶來不小的認知困難。

有意思的是,馬雲的杭州腔演講結束之後,下一個上場的是鴻海董事長郭台銘。為了配合雲速記,郭台銘還特意放慢了語速,以便更好地被機器識別。但隨後不知出於何種考慮,工作人員關閉了郭台銘的字幕。

 

機器也需要多多學習才能進步

不過,上面這些錯誤的範例雖然看來很可笑,但並不表示這個技術不成熟。如果我們仔細想想,就算是我們人類,聽到了帶有杭州腔的馬雲講話,也不見得能夠全部理解並且抄寫出百分之百準確度的文字。

之前我們採訪過在中文語音辨識有專門技術,也是Cortana語音辨識中文部分早期參與者的微軟研究院首席研究員暨學術合作部總經理王冠三博士,詢問過關於英文語音辨識與中文語音辨識的問題。提到中文語音辨識比英文語音辨識的難度更高的問題,是否是基於中文本身比英文還要複雜,王冠三博士表示早期來講是如此,但是到了現在,其實不管哪一種語言,語音辨識技術本身其實都不是什麼大問題,問題是在於學習的部分。

他表示不管哪一種語言,都需要透過大量的資料來進行學習,才能夠進行後續的糾錯,提高辨識的成功率。那麼,這些大量的語音資料又要從何而來?在這一點,西方國家就有先天的優勢。

因為現在美國的電視都帶有數位字幕,聲音與字幕檔案是分開的,他們每天都可以透過一天二十四小時,全天數百個頻道的節目來訓練機器去進行學習,因此學習的速度相對來說是非常快的。但是其他國家,包括中文語系的國家,就缺乏了這種優勢。會有數據量不夠的問題。如果再往下細分到各種腔調,難度當然也就更高了。

 

 

資料來源:pingwest

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則