聲音跟真人沒兩樣,Google AI打電話神技背後的隱憂

聲音跟真人沒兩樣,Google AI打電話神技背後的隱憂

今年的開發者大會 Google I/O 上,Google Assistant 新增的「Duplex」技術成為一大焦點,他可以模仿人類聲音打電話預約餐廳、髮廊等,甚至可以模仿人類細微的說話習慣,接聽的店員甚至完全沒有察覺有異。

而這項令眾人讚嘆的科技,背後究竟使用了那些技術,而在以假亂真的機器面前,身為人類的我們應該擔心嗎?

只花不到三年,虛擬助理做到自然連續對話

2016年的 Google I/O 大會上,虛擬智慧助理 Google Assistant 正式亮相,短短不到三年的時間,虛擬助理已經可以做到自然連續的對話,甚至聲音維妙維肖,令人類也真假難辨。

這項新技術 Google 取名為「Duplex」,中文翻譯過來可以理解為「語音雙攻技術」,這跟過去我們習慣聽到的 Google 小姐,或是 Siri 、Alexa 這類機械感十足的虛擬助理不同,聲音聽起來更有「人味」。

對電腦來說,要聽起來接近人類是相當困難的,因為電腦習慣接收精確的指令,而人類在口語交談時常常很不精確,會夾雜許多語助詞跟廢話、一個句子說到一半突然更正部分內容、上下文省略一些單字、突然停頓等等。

人類說話會像這樣:

嗯......我覺得我們可以這樣做,但應該等到下周二,但...不知道耶,也許會有更好的做法之類的。

像是「嗯」、「喔」之類的填空詞,幾乎在每個語言中都很常見,多用在表達句子之間提供舒緩效果,Google在開發者大會上,示範預定沙龍以及餐廳兩種情境。第一段中我們可以聽到虛擬助理說:「我想幫一位客戶預約女士剪髮,嗯…我想預約5月3日的時間。」巧妙的在語句中加入「嗯…」。

▲Google Assistant 預約剪髮。

第二段預訂餐廳的示範中,虛擬助理一開始先表達了訂位需求,後來店員告訴她不需要預訂,可以直接現場候位,虛擬助理不僅順利理解突發狀況中「不需訂位」的意思,還進一步詢問現場大概需要等多久,在這兩個示範案例中,接電話的店員都絲毫沒有察覺異狀。

▲Google Assistant 預約餐廳。

機器與人類對話,三問題值得思考

Google 在大會現場沒有透露這項技術是如何研發的,但在官方部落格上有補充,說明核心是遞歸神經網絡(RNN),並建立在 TensorFlow Extended(RFX)上,為了提升精準度,Google 使用多通匿名電話來訓練 Duplex,建構出來的模型還考慮到了許多因素,例如在特定情況下的語調、答話的速度等等,例如有人問你:「大概幾點方便?」一般人會思考稍作停頓再回答,機器也必須模仿這類狀況,才能更加自然。

目前這項科技還沒發展完全,僅能應對簡單的服務預訂談話,應用場景相當有限,不能隨意談論任何話題,Google 表示 Duplex 有「自我監控能力」,若談話內容超出能力範圍,會自動發出警示讓人類接手,且僅支援英文。

聲音跟真人沒兩樣,Google AI打電話神技背後的隱憂
▲Google 表示 Duplex 有「自我監控能力」,如果談話內容超出能力範圍,會自動發出警示讓人類接手。
圖片來源:Google via Twitter

撇開技術不說,Duplex 確實改變了機器與人類互動的想像,但也有三個值得討論的問題:

像是 Google 有義務吿訴對方自己是在跟機器對話嗎?這是一個兩難的選擇,若接起電話一開始就聽到:「嘿,我是機器人!」那麼大部分的人應該會下意識直接掛掉吧。

另外,無論再小的談話,都具有一定的社交價值,當我們無法分辨電話那端是真人或機器時,會不會讓人心變得猜忌,且削弱我們對所見所聞的信任嗎?另外這項技術會不會變成一種階級特權,讓掌握技術的人,隨意將無聊、不想處理的對話通通丟給機器?

這些都是值得討論的問題,雖然這項技術離普及應用可能還有一段距離,但光憑大會上的簡短示範,效果就已經令人相當驚豔。

資料來源:BIQuartzThe verge

數位時代
作者

《數位時代》,關注國內外網路創業生態,精選全球科技業的重要趨勢、創新模式和最新動態,並有記者第一現場的報導,以及各類社群活動消息。希望能協助讀者早一步領略趨勢脈動、領先掌握下一步行動的競爭優勢。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則