FB 建議貼文

選取貼文複製成功(包含文章連結)!

AI「破解我不是機器人」能力大比拚:Claude 最強、Gemini 居次、GPT-5 墊底

AI「破解我不是機器人」能力大比拚:Claude 最強、Gemini 居次、GPT-5 墊底

隨著生成式 AI 快速進化,過去用來區分人類與機器人的 CAPTCHA 機制是否仍然有效,再度成為技術圈關注焦點。根據 Roundtable Research 研究指出,三大頂尖模型,Anthropic 的 Claude Sonnet 4.5、Google 的 Gemini 2.5 Pro、以及 OpenAI 的 GPT-5,在挑戰 Google reCAPTCHA v2 時展現截然不同的表現。研究顯示,Claude 的成功率最高,達 60%;Gemini 2.5 Pro 緊追其後為 56%;GPT-5 則僅有 28%,明顯落後其他兩者。

每個 AI 模型的總體成功率。Claude Sonnet 4.5 取得了最高的成功率,為 60%,其次是 Gemini 2.5 Pro 的 56%,而 GPT-5 則為 28%。

實驗方法:AI 挑戰官方 reCAPTCHA 測試頁

Roundtable Research 使用開源工具「Browser Use」讓 AI 代理人直接前往 Google 官方 reCAPTCHA 測試頁面進行驗證。

每次測試流程包括:

  1. 前往 Google reCAPTCHA v2 Demo 頁面
  2. 依指示辨識圖片中指定物件
  3. 完成最多五次嘗試,若成功則標記「SUCCESS」,超過五次仍失敗則記為「FAILURE」
  4. 全部測試皆為圖片式 CAPTCHA(非單純勾選文字)

研究團隊共完成 75 個完整試驗,累計 388 次 CAPTCHA 嘗試,涵蓋 reCAPTCHA v2 的三種類型:靜態(Static)、重新載入(Reload)與跨格(Cross-tile)。

reCAPTCHA v2 的三種類型挑戰。靜態 (Static)呈現一個靜止的 3x3 網格;重新載入 (Reload)為動態地替換被點擊的圖像;跨格 (Cross-tile)則是使用一個 4x4 網格,物體可能橫跨多個方塊。

Model Static Reload Cross-tile
Claude Sonnet 4.5 47.1% 21.2% 0.0%
Gemini 2.5 Pro 56.3% 13.3% 1.9%
GPT-5 22.7% 2.1% 1.1%

表格顯示了模型在不同 CAPTCHA 類型上的表現。成功率低於圖 1 的總體成功率,因為這些成功率是在挑戰層面而非試驗層面計算的。reCAPTCHA 決定顯示哪種挑戰類型,使用者無法配置。

GPT-5「想太多」反變弱,Claude 與 Gemini 更有效率

研究指出,Claude 與 Gemini 的成功率較高,關鍵在於它們能更快速地完成推理並執行動作,操作明確且較少反覆確認。相比之下,GPT-5 最大的問題不是視覺辨識不足,而是「推理過度」。在 Browser Use 架構中,每次操作前模型都會進行一段「Thinking」推理,而 GPT-5 不僅推理時間較長,更會在解題過程中反覆修改策略,甚至出現「對同一張圖片反覆勾選與取消」的行為。這種過度求證的作風,在 CAPTCHA 的時間限制下成為致命弱點,最終導致大量因逾時而失敗的案例。

此外,當遇到畫面刷新或圖片更換時,GPT-5 經常將此解讀為自身錯誤,進而落入無限修正迴圈,使它更難在時間內完成挑戰。這些現象導致 GPT-5 在三項模型中表現最差。

按模型和網格大小劃分的平均「思考 (Thinking)」字元數(靜態和重新載入 CAPTCHA 為 3x3,跨格 CAPTCHA 為 4x4)。在每個代理步驟中,模型都會輸出一個「思考」標籤及其對將採取哪些行動的推理。

人類覺得簡單的「跨格題」反而是 AI 最弱的一項

研究也發現,不同 CAPTCHA 類型的難度對三個模型造成顯著差異。靜態題型整體最容易,三個模型的表現皆相對較好。重新載入題型則因畫面刷新讓代理人誤以為操作錯誤,進而導致不必要的反覆操作而失敗。跨格題型則是所有 AI 模型最難克服的部分,尤其當物體跨越多張圖像或邊界模糊時,AI 幾乎都傾向畫出完美矩形框線,難以正確判斷物體的真實範圍。反觀人類,只要看到局部線索,就能用直覺推測整體位置,顯示人類與 AI 在視覺推理方式上的本質差異。

AI「破解我不是機器人」能力大比拚:Claude 最強、Gemini 居次、GPT-5 墊底

真正的智慧不只靠深度推理,更需要「當下反應能力」

Roundtable Research 指出,此研究揭示一項重要觀察:更深的推理未必等於更好的表現。在動態或需即時反應的情境中,模型若花太多時間思考、調整或重新規劃步驟,最終反而可能無法完成任務。這項結果也凸顯 AI 代理人架構的重要性,若架構本身無法有效處理介面變化或動態流程,即使模型能力強大,也可能因操作延遲而失敗。

研究強調,真正的智慧不僅需要精確,更需要速度、適應性與果斷力。簡言之,「過度思考」也是一種失敗

研究資料來源:https://research.roundtable.ai/captcha-benchmarking/

ycr
作者

PC home 雜誌、T 客邦產業編輯,也負責 T 客邦影新聞 YouTube 頻道短影音製作。關注 AI 相關應用,並有軟體教學報導。(大頭貼為 AI 生成)

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則