Alexa首席科學家表示「圖靈測試」評量AI根本就走錯路,AI沒必要模仿人類

Alexa首席科學家表示「圖靈測試」評量AI根本就走錯路,AI沒必要模仿人類

近日,亞馬遜 Alexa 首席科學家 Rohit Prasad 發表了文章,做出了一項大膽的表態:圖靈測試已經失去了意義,是時候建立一個新的 AI 衡量標準了。

什麼是圖靈測試?

「機器能否思考?」這是加密學和人工智慧先驅艾倫‧圖靈在70年前論文 Computing Machinery and Intelligence 的核心問題。他在論文中提出了一個思想實驗,叫做「模仿遊戲」(imitation game),用於檢測電腦是否能表現出與人等價或無法區分的智慧。

測試的內容,簡單來說是這樣的:如果一個測試者對無法確認身份的兩個對象(一人、一機器)提出相同的一系列問題,得到的答案讓他無法區分究竟誰是機器,誰是人,那麼則認定機器通過圖靈測試。當然在實際中測試規則更加複雜,比如需要引入更多的測試者等等。

這個思想實驗被後人歸納為圖靈測試,也成為了衡量人工智慧的「智慧性」的最常用標準。「機器能否思考」這個問題,也橫跨了一整個世紀,指導了後世的電腦和人工智慧技術革新。

艾倫‧圖靈

但為什麼在今天,有人要站出來說圖靈測試已經失去意義?

 

圖靈測試不是在讓AI「進步」,而是讓AI「退步」

Prasad 表示,圖靈當年提出的這個目標「區別人類與機器人的差異」,對於像他這樣的 AI 科學家來說,並不是很有意義。

他表示,AI現在的主要用場是植入到手機、汽車和家裡,人們更關心的是 AI 能夠帶來哪些更新的互動體驗和技術進步,而不是通過測試的分數有多高。從根本上,強行追求機器和人類無差別的概念,已經過時了。

機器和人本來就有著天生的差別。人能夠隨機應變,舉一反三,都是機器普遍缺乏的能力。但機器也有它的長處,也就是快速計算和訊息查詢的能力遠強於人類,而 Prasad 指出正是這些能力構成了現代 AI 的核心。

電腦不如人類的地方,它用自己的長處去彌補,也能夠取得不錯的結果。我們已經看到,在諸如視覺、自然語言處理等領域,最強的演算法已經取得遠超人類的結果。

很多 AI 科學家都發現,其實讓 AI 在圖靈測試裡取得更好成績,要做的很簡單,只是讓電腦所說的答案儘量像人的答案就行了。比如在回答時插入停頓,優化語法等等。

正如剛才提到的,電腦的長處就是快速計算和訊息查詢。這些毫無難度的問題,電腦不到一秒鐘就已計算出或者查到答案。只是回答的如果慢一點,甚至故意答錯,也許就通過測試了……Prasad 認為,圖靈測試所追求的,並非對 AI 長處的最佳利用。AI 明明可以被用來做更多的事情去幫助人類,為何還要限制自己,去強行追求和人無差別呢?

此外,圖靈測試多年裡都是基於文字的測試,而機器學習各領域的技術進步已經讓 AI 在視覺、聽覺、多感應器融合、決策規劃等諸多方面取得了長足發展。一個最經典的例子就是以 AlphaGo 為代表的,足以在各種高難度博弈計畫上擊敗最頂級人類選手的AI。

這些重大進展,很難在一成不變的圖靈測試當中得到體現。

那麼,什麼是對AI衡量的新標準?

有了前面這些鋪墊,Prasad 進一步指出,新的衡量標準應該體現機器在效率上的優勢,比如計算、搜索、代人完成任務等等,綜合評價 AI 對人類智慧帶來的幫助,而不是執迷於抹平 AI 和人的差別。

比如亞馬遜舉辦的 Alexa 大獎賽,該獎項考察的是參選者(社群機器人)在一些社會層面熱門話題上和人類進行連貫、有價值對話的能力。一個社群機器人的對話連貫性、自然程度越高,讓人類評委接下來更願意繼續對話,得到的分數就越高。在所有的評判標準中,如果 AI 能夠表現出同理心和幽默,那麼可能會得到加分;但不論如何,AI 都不需要假裝成人類。

另一個例子是機器學習演算法平台 Kaggle 的「抽象和推理挑戰」,它考察的是參賽演算法解決前所未有的推理任務的能力,也體現了 AI 在知識儲備、學習、決策推理等方面的長處。

當然,每年都會召開的眾多 AI 領域學術會議,特別是這些會議的獎項,也可以幫助人們評價一篇論文的優劣。

Prasad 指出,以 Alexa 為例,作為一個虛擬助手,它正在超越對話式的基礎,朝著環境 AI (ambient AI) 的方向前進。當需要時,AI 可以回答人類的請求,當不需要時,AI 可以消失在背景當中,但仍在主動地工作著,完成一些人類可能意識到或者意識不到的重要任務,比如基於多感應器融合的安防監控等等。

在眾多科幻電影的烘托下,人們嚮往著更加強大的「通用人工智慧」。不過隨著 AI 技術進步和更多被應用到現實生活中,人們一邊對 AI 改善自己生活有了更多的期待,另一邊又對 AI 的使用甚至濫用所造成的道德困境提高了警惕。

正因為此,新的 AI 衡量標準,也應該在道德、公平層面有所顧及。畢竟,如果固化地遵從圖靈測試的標準的話,那麼 DeepFake 可能是全世界最優秀的 AI 了。

Prasad 最後強調,他並不想詆毀圖靈的初衷。但人們需要明白的是,被稱為圖靈測試的「模仿遊戲」,從始至終都是一個思想實驗,而非作為實用性人工智慧的終極測試。在今天,圖靈測試已經成為老古董,被過度使用的弊端已經顯現,是時候把它放在一邊了。

使用 Facebook 留言

發表回應

謹慎發言,尊重彼此。按此展開留言規則