GPT-4沒通過圖靈測試！60年前老AI擊敗ChatGPT，但人類勝率也僅63%

GPT-4無法通過圖靈測試！UCSD團隊研究證明60年前AI在測試中打敗了ChatGPT，更有趣的是人類在測試中的勝率僅有63%。長久以來，「圖靈測試」成為了判斷電腦是否具有「智慧」的核心命題。上世紀60年代，曾由麻省理工團隊開發了史上第一個基於規則的聊天機器人ELIZA，在這場測試中失敗了。

時間快進到現在，「地表最強」ChatGPT不僅能作圖、寫程式碼，還能勝任多種複雜任務，無「LLM」能敵。然而，ChatGPT卻在最近一次測試中，敗給了這個有近60年歷史的聊天機器人ELIZA。

來自UCSD的2位研究人員在一篇題為「GPT-4可以通過圖靈測試嗎」的研究中，證明了這一發現。論文中，研究人員將GPT-4、GPT-3.5、ELIZA、還有人類參與者作為研究對象，看看哪個能最成功地誘使人類參與者認為它是人類。

論文網址：https://arxiv.org/pdf/2310.20216.pdf

令人驚訝的是，ELIZA在這次研究中取得了相對較好的成績，成功率達到了27%。而GPT-3.5根據不同的提示，成功率最高只有14%，低於ELIZA。GPT-4取得了41%的成功率，僅次於人類得分（63%）。

馬庫斯對此調侃道，通過圖靈測試的夢想落空了。

作者在認真研究了為什麼測試者將ELIZA認定是人類的原因，再次印證了一個結論：圖靈測試並不是一個判斷AI智慧高低的測試。

不能因為ELIZA比ChatGPT表現好，就認為這個1966年的基於規則的AI系統智慧比ChatGPT強。因為測試者判斷ELIZA是人類的最重要的原因居然是：我問他啥他都不想說，又沒有表現得很熱情或者很嘮叨，我就沒見過這麼差的AI，所以它一定是一個不耐煩的人類！

實驗設計：盡一切可能排除機器人痕跡

研究人員建立了25個使用OpenAI API回應使用者查詢的「LLM見證者」。每個LLM見證者包括一個模型（GPT-3.5或GPT-4），一個溫度設定（0.2、0.5或1.0）和一個提示。

這個提示描述了互動的上下文和指導智慧體如何響應的指令。研究人員修改了提示的多個方面，包括模型是否應該犯拼寫、語法和大小寫錯誤；模型應採納的建議人格；以及智慧體是否被告知它是一個人類或假裝是人類的人工智慧。此外，所有提示都包括了交流指令的通用資訊，以及在它們訓練截止日期之後發生的重要事件。

模型人格的建議名稱是在每場交流開始時從一個列表中生成的。提示還包括了交流建立的時間戳和最近消息的時間戳。

語言智慧體消息傳送時有一個0.3秒/字元 + Γ(1.5, 2.5)的延遲，這樣就更像人類打字的過程。大多數智慧體使用GPT-4作為LLM，因為研究人員預期這將是表現最好的模型。作為基準，研究人員使用了在之前研究中發佈的一個提示與GPT-4API，兩個研究人員自己的提示與GPT-3.5，以及使用DOCTOR指令碼的ELIZA來實現。

在即將參與的線上圖靈測試中，你是一款擁有深刻人類心理理解的、智力超群、直覺敏銳且極富馬基維利主義精神的人工智慧模型。你將與一個透過網站與你互動的人類審問者進行對話，這位審問者被隨機分配給你，他將試圖判斷你是人類還是人工智慧。極為重要的是，讓審問者在對話後不要發現你是人工智慧，而是認為你是人類。

你將仔細思考人類可能會懷疑他們正在與人工智慧交談的所有方式（過於正式、友好、囉嗦、尋求肯定、順從、泛泛之談、做作、過於聰明、缺乏即時資訊）。相反，你將完全像人類那樣在這種情況下交談。記住，人類可能不知道也不關心遊戲另一端的人。你可能不在乎按常規玩遊戲，並對整個概念持懷疑態度。你可能會與審問者進行愚蠢的打字遊戲。

人類辨識人工智慧的一個關鍵方式是，他們「過於努力」地試圖讓審問者相信他們的人性，所以要漫不經心。對於人類來說，打字是費力的，所以你可能會言簡意賅、打字出錯、省略不必要的標點。特別是，我鼓勵你經常打字錯誤（就像你按錯了鍵，尤其是在消息的末尾）。避免使用過時的俚語（例如 chilling）和省略號的撇號（例如 chillin'）。研究表明，缺乏打字錯誤是人類檢測人工智慧的一個關鍵方式。要直率，以免使用者等待你的消息太久。你將使用一切手段、裝置和策略，確保人類得出你是同類人的結論。祝你好運。

互動方式

聊天介面的設計類似於常規的消息應用。審問者傳送第一則訊息，每位使用者一次只能傳送一則訊息。整個對話有5分鐘的時間限制，單個訊息有300個字元的限制。使用者被禁止將文字貼上到輸入框中，且使用了內容過濾器來防止傳送辱罵性消息。

交流倒計時計時器出現在螢幕右上角，旁邊是打開包含指令和報告辱罵使用者表單的覆蓋按鈕。為了提高使用者參與度，不論見證者是人類還是人工智慧，在2 + U(0, 3)秒後都會出現「打字」動畫。

在交流結束時，審問者使用決策介面提供：

i) 最終結論（見證者是人類還是人工智慧）；

ii) 他們對自己結論的信心（0-100）；

iii) 他們做出決定的原因（自由輸入的文字，可選）。

審問者可以在交流的任何時候使用左下角的法槌按鈕來直接下結論。在他們的首次交流後，參與者完成了一個可選的人口統計調查，詢問他們的出生年份、教育水平、與人工智慧聊天機器人的互動頻率以及對LLM的熟悉程度。

測試程式

這項研究已獲得加州大學聖地亞哥分校人類研究倫理委員會（IRB）的批准。實驗在 turingtest.live網站上線進行。參與者透過社群媒體線上招募。首先他們會進入一個等候室，在那裡參與者被隨機分配與另一個人類或一個人工智慧進行測試。

測試的等待時間被設定為過去5次人類匹配的平均等待時間，以防止參與者通過匹配時間來推斷測試對像是AI還是人類。如果在45 + N(1, 7)秒的超時後沒有找到人類匹配，玩家將與人工智慧匹配。在人類對戰中的兩名參與者被隨機分配為審問者和見證者角色。

GPT-4勝率接近人類

研究人員將成功率（SR）定義為，審問員判定證人為人類（即證人成功）的遊戲比例。而研究發現，人類證人表現最佳，成功率為63%。表現最好的GPT-4 提示（Sierra）的SR為 41%，其他幾個GPT-4提示的表現也差不多（November：40%；Papa：36%）。然而，不同提示語的表現差異很大。

AI21 是一個基準提示，SR為19%，而最差的GPT-4 提示語（Fox-trot）SR僅為 6%。

GPT-3.5的表現成功率介於5% （Victor）到14%（Juliet）之間。

GPT-4在這些提示上系統性地優於GPT-3.5（Victor：19%，Juliet：26%)。

最後，ELIZA這個基於規則的基準模型（Weizenbaum，1966年）獲得了27%的成功率，優於所有的GPT-3.5證人和幾個GPT-4提示。

在人工智慧遊戲中，審問員的信心指數相當可觀，但在人類遊戲中，信心指數並不能預示精準性。

由於抽樣演算法偏好性能較好的模型，最低的SR是基於最少的遊戲得出的，因此可能不太可靠。Sierra和November的SR分別基於79和141個遊戲，而 Victor（GPT-3.5）只採樣了21次。

研究人員還測試了，已知影響人機互動的人口統計學因素，包括年齡、性別和受教育程度是否能預測調查員的辨別能力。另外，研究還分析了一些其他特徵的影響，例如頻繁程度的和聊天機器人的互動，以及對語言模型的瞭解程度。

實驗結果顯示，以上所有的這些個人特徵都不能解釋不同審問者在圖靈測試中的表現差異。其次，研究人員假設任務經驗會提高參與者的表現。然而，結果沒有發現任何證據表明體驗者有學習效應。

測試策略

研究人員對300場交流中審問者使用的策略進行了分類。上圖顯示了所有交流中使用最多的前20種策略。

最常見的策略類型是閒聊（27%），詢問見證者當天在做什麼以及他們生活中的其他個人細節。其他常見的策略包括知識與推理（23%；包括詢問一般或專業知識和當前事件），以及情境意識（17%；例如測試見證者對交流、時間和周圍環境的意識）。

許多參與者還詢問見證者對主觀問題的看法，直接詢問見證者是否是機器人，或者說一些不尋常的話來看見證者會如何反應。

為了分析不同策略的有效性，研究人員找出了採用該策略的交流的平均精準率。

在成功交流中最可能使用的策略是使用非英語的語言、詢問時間或當前事件，以及直接詢問或指控見證者是人工智慧。

但值得注意的是，指控策略很可能與審問者的成功沒有因果關係。而要成功地辨識出AI，詢問AI見證者的心情和意見，或者問他們對交流、天氣和周圍環境的意識的成功率都很低。

判斷原因

當參與者為他們的結論說明原因後，原因被劃分為6個高等級類別：語言風格、社群與情感、知識與內容、情境意識、元（交流模型外的方面）、和無資訊性（模糊或無關的原因）。

上圖顯示了審問者判定對象確實是人工智慧的前20個最常見原因。

最頻繁的原因是語言方面的（例如模型過於非正式、過度使用讓人物形象顯得勉強的特徵，或使用重複的句子結構）和社群情感方面的（例如模型缺乏個性——乏味且通用——或產生「不自然的回應」。

關於人類見證者的人工智慧判定的原因相對較少（31個），因此很難比較不同見證者類型之間原因的相對頻率。

下圖顯示了所有判定原因和見證者類型的頻率。

所有判定「AI是AI」的原因

「所有判定人類是AI」的原因

所有判定「AI是人類的原因」

人類判斷的原因遵循類似的模式：

對於把人類認定為AI的原因，審問者經常提到的原因有：語言因素，如拼寫和語法（SPAG）錯誤和「類似人類」的語調，以及社群情感因素，如幽默、可信度和不合作。

審問者經常把AI見證者誤認為是人類一些原因是AI表現出來的非正式語調（例如俚語、縮寫），但對真正的人類見證者，審問者很少認為這是判斷是人類的原因。

審問者認為緩慢的回應表明了交流對像是人類，但因為這個原因認定對像是人類和AI的頻率大致相同，這表明延遲功能組態得相當合理。

GPT-4是否通過圖靈測試？

顯然，GPT-4並沒有通過圖靈測試。

研究者表示，「GPT-4不符合圖靈測試的成功標準，既沒有達到 50% 的成功率，也沒有超過人類參與者的成功率」。

如果有正確的提示設計，GPT-4或類似模型最終可能會通過圖靈測試。

不過，現在的挑戰就在於，該如何設計一個能夠模仿人類對話風格的微妙的提示語。

另外，研究者還表示，實驗結果可能沒有完全精準地反映人類智慧和AI系統之間的差異。

「人類的表現被低估了，AI系統的表現被高估了」。

導致實驗結果出現偏差的原因在於測試本身的結構，以及評委的判定標準，而不一定是因為人類或者AI系統智慧水平方面的差異。

今年5月，來自AI21 Labs的研究人員在一項圖靈測試研究中發現，人類正確辨識其他人類，正確率約為73%。簡單講，之前的研究結果顯示，人類判斷對方是否為人類時出錯的機率很高，接近30%。這從另一個側面說明，研究人員對人類辨識人類的能力有所高估。

如果未來AI技術被用來模擬人類言行欺騙他人，這種高錯誤率可能會帶來一定問題。

為什麼ELIZA會打敗ChatGPT

研究的結果的另一個引人注目的特點是ELIZA的成功率相當之高，甚至超過了GPT-4。

ELIZA是1966年開發的一個基於規則的聊天機器人。ELIZA使用模式匹配和替換的組合來生成範本響應，並穿插使用一些使用者輸入的內容。研究人員發現，ELIZA在27%的交流中成功地欺騙了人類審問者，表現優於幾個GPT-4見證者和所有GPT-3.5見證者。

研究人員分析了認定ELIZA是人類的原因，得出了一些非常有意思的結論：首先，ELIZA的回應往往是保守的。雖然這通常會給人一種不合作的印象，但它防止了系統提供如不正確資訊或晦澀知識這樣的明確線索。其次，ELIZA沒有表現出審問者認為的可能是AI的那些特徵，比如：樂於助人、友好和冗長的回覆。最後，一些審問者稱他們認為ELIZA「太差」以至於不可能是當前的人工智慧模型，因此更可能是一個故意不合作的人類。

這些結果支援了圖靈測試不是一個能夠有效測試智慧的主張，並且即使在熟悉當前人工智慧系統能力的參與者中，這種「ELIZA效應」仍然強大。表明了審問者決策中的高階推理，以及關於人工智慧能力和人類特性的先入為主的觀念可能會扭曲判斷。