Alexa首席科學家表示「圖靈測試」評量AI根本就走錯路，AI沒必要模仿人類

近日，亞馬遜 Alexa 首席科學家 Rohit Prasad 發表了文章，做出了一項大膽的表態：圖靈測試已經失去了意義，是時候建立一個新的 AI 衡量標準了。

什麼是圖靈測試？

「機器能否思考？」這是加密學和人工智慧先驅艾倫‧圖靈在70年前論文 Computing Machinery and Intelligence 的核心問題。他在論文中提出了一個思想實驗，叫做「模仿遊戲」(imitation game)，用於檢測電腦是否能表現出與人等價或無法區分的智慧。

測試的內容，簡單來說是這樣的：如果一個測試者對無法確認身份的兩個對象（一人、一機器）提出相同的一系列問題，得到的答案讓他無法區分究竟誰是機器，誰是人，那麼則認定機器通過圖靈測試。當然在實際中測試規則更加複雜，比如需要引入更多的測試者等等。

這個思想實驗被後人歸納為圖靈測試，也成為了衡量人工智慧的「智慧性」的最常用標準。「機器能否思考」這個問題，也橫跨了一整個世紀，指導了後世的電腦和人工智慧技術革新。

▲ 艾倫‧圖靈

但為什麼在今天，有人要站出來說圖靈測試已經失去意義？

圖靈測試不是在讓AI「進步」，而是讓AI「退步」

Prasad 表示，圖靈當年提出的這個目標「區別人類與機器人的差異」，對於像他這樣的 AI 科學家來說，並不是很有意義。

他表示，AI現在的主要用場是植入到手機、汽車和家裡，人們更關心的是 AI 能夠帶來哪些更新的互動體驗和技術進步，而不是通過測試的分數有多高。從根本上，強行追求機器和人類無差別的概念，已經過時了。

機器和人本來就有著天生的差別。人能夠隨機應變，舉一反三，都是機器普遍缺乏的能力。但機器也有它的長處，也就是快速計算和訊息查詢的能力遠強於人類，而 Prasad 指出正是這些能力構成了現代 AI 的核心。

電腦不如人類的地方，它用自己的長處去彌補，也能夠取得不錯的結果。我們已經看到，在諸如視覺、自然語言處理等領域，最強的演算法已經取得遠超人類的結果。

很多 AI 科學家都發現，其實讓 AI 在圖靈測試裡取得更好成績，要做的很簡單，只是讓電腦所說的答案儘量像人的答案就行了。比如在回答時插入停頓，優化語法等等。

正如剛才提到的，電腦的長處就是快速計算和訊息查詢。這些毫無難度的問題，電腦不到一秒鐘就已計算出或者查到答案。只是回答的如果慢一點，甚至故意答錯，也許就通過測試了……Prasad 認為，圖靈測試所追求的，並非對 AI 長處的最佳利用。AI 明明可以被用來做更多的事情去幫助人類，為何還要限制自己，去強行追求和人無差別呢？

此外，圖靈測試多年裡都是基於文字的測試，而機器學習各領域的技術進步已經讓 AI 在視覺、聽覺、多感應器融合、決策規劃等諸多方面取得了長足發展。一個最經典的例子就是以 AlphaGo 為代表的，足以在各種高難度博弈計畫上擊敗最頂級人類選手的AI。

這些重大進展，很難在一成不變的圖靈測試當中得到體現。

那麼，什麼是對AI衡量的新標準？

有了前面這些鋪墊，Prasad 進一步指出，新的衡量標準應該體現機器在效率上的優勢，比如計算、搜索、代人完成任務等等，綜合評價 AI 對人類智慧帶來的幫助，而不是執迷於抹平 AI 和人的差別。

比如亞馬遜舉辦的 Alexa 大獎賽，該獎項考察的是參選者（社群機器人）在一些社會層面熱門話題上和人類進行連貫、有價值對話的能力。一個社群機器人的對話連貫性、自然程度越高，讓人類評委接下來更願意繼續對話，得到的分數就越高。在所有的評判標準中，如果 AI 能夠表現出同理心和幽默，那麼可能會得到加分；但不論如何，AI 都不需要假裝成人類。

另一個例子是機器學習演算法平台 Kaggle 的「抽象和推理挑戰」，它考察的是參賽演算法解決前所未有的推理任務的能力，也體現了 AI 在知識儲備、學習、決策推理等方面的長處。

當然，每年都會召開的眾多 AI 領域學術會議，特別是這些會議的獎項，也可以幫助人們評價一篇論文的優劣。

Prasad 指出，以 Alexa 為例，作為一個虛擬助手，它正在超越對話式的基礎，朝著環境 AI (ambient AI) 的方向前進。當需要時，AI 可以回答人類的請求，當不需要時，AI 可以消失在背景當中，但仍在主動地工作著，完成一些人類可能意識到或者意識不到的重要任務，比如基於多感應器融合的安防監控等等。

在眾多科幻電影的烘托下，人們嚮往著更加強大的「通用人工智慧」。不過隨著 AI 技術進步和更多被應用到現實生活中，人們一邊對 AI 改善自己生活有了更多的期待，另一邊又對 AI 的使用甚至濫用所造成的道德困境提高了警惕。

正因為此，新的 AI 衡量標準，也應該在道德、公平層面有所顧及。畢竟，如果固化地遵從圖靈測試的標準的話，那麼 DeepFake 可能是全世界最優秀的 AI 了。

Prasad 最後強調，他並不想詆毀圖靈的初衷。但人們需要明白的是，被稱為圖靈測試的「模仿遊戲」，從始至終都是一個思想實驗，而非作為實用性人工智慧的終極測試。在今天，圖靈測試已經成為老古董，被過度使用的弊端已經顯現，是時候把它放在一邊了。