AI「破解我不是機器人」能力大比拚：Claude 最強、Gemini 居次、GPT-5 墊底

隨著生成式 AI 快速進化，過去用來區分人類與機器人的 CAPTCHA 機制是否仍然有效，再度成為技術圈關注焦點。根據 Roundtable Research 研究指出，三大頂尖模型，Anthropic 的 Claude Sonnet 4.5、Google 的 Gemini 2.5 Pro、以及 OpenAI 的 GPT-5，在挑戰 Google reCAPTCHA v2 時展現截然不同的表現。研究顯示，Claude 的成功率最高，達 60%；Gemini 2.5 Pro 緊追其後為 56%；GPT-5 則僅有 28%，明顯落後其他兩者。

▲ 每個 AI 模型的總體成功率。Claude Sonnet 4.5 取得了最高的成功率，為 60%，其次是 Gemini 2.5 Pro 的 56%，而 GPT-5 則為 28%。

實驗方法：AI 挑戰官方 reCAPTCHA 測試頁

Roundtable Research 使用開源工具「Browser Use」讓 AI 代理人直接前往 Google 官方 reCAPTCHA 測試頁面進行驗證。

每次測試流程包括：

前往 Google reCAPTCHA v2 Demo 頁面
依指示辨識圖片中指定物件
完成最多五次嘗試，若成功則標記「SUCCESS」，超過五次仍失敗則記為「FAILURE」
全部測試皆為圖片式 CAPTCHA（非單純勾選文字）

研究團隊共完成 75 個完整試驗，累計 388 次 CAPTCHA 嘗試，涵蓋 reCAPTCHA v2 的三種類型：靜態（Static）、重新載入（Reload）與跨格（Cross-tile）。

▲ reCAPTCHA v2 的三種類型挑戰。靜態 (Static)呈現一個靜止的 3x3 網格；重新載入 (Reload)為動態地替換被點擊的圖像；跨格 (Cross-tile)則是使用一個 4x4 網格，物體可能橫跨多個方塊。

Model	Static	Reload	Cross-tile
Claude Sonnet 4.5	47.1%	21.2%	0.0%
Gemini 2.5 Pro	56.3%	13.3%	1.9%
GPT-5	22.7%	2.1%	1.1%

表格顯示了模型在不同 CAPTCHA 類型上的表現。成功率低於圖 1 的總體成功率，因為這些成功率是在挑戰層面而非試驗層面計算的。reCAPTCHA 決定顯示哪種挑戰類型，使用者無法配置。

GPT-5「想太多」反變弱，Claude 與 Gemini 更有效率

研究指出，Claude 與 Gemini 的成功率較高，關鍵在於它們能更快速地完成推理並執行動作，操作明確且較少反覆確認。相比之下，GPT-5 最大的問題不是視覺辨識不足，而是「推理過度」。在 Browser Use 架構中，每次操作前模型都會進行一段「Thinking」推理，而 GPT-5 不僅推理時間較長，更會在解題過程中反覆修改策略，甚至出現「對同一張圖片反覆勾選與取消」的行為。這種過度求證的作風，在 CAPTCHA 的時間限制下成為致命弱點，最終導致大量因逾時而失敗的案例。

此外，當遇到畫面刷新或圖片更換時，GPT-5 經常將此解讀為自身錯誤，進而落入無限修正迴圈，使它更難在時間內完成挑戰。這些現象導致 GPT-5 在三項模型中表現最差。

▲ 按模型和網格大小劃分的平均「思考 (Thinking)」字元數（靜態和重新載入 CAPTCHA 為 3x3，跨格 CAPTCHA 為 4x4）。在每個代理步驟中，模型都會輸出一個「思考」標籤及其對將採取哪些行動的推理。

人類覺得簡單的「跨格題」反而是 AI 最弱的一項

研究也發現，不同 CAPTCHA 類型的難度對三個模型造成顯著差異。靜態題型整體最容易，三個模型的表現皆相對較好。重新載入題型則因畫面刷新讓代理人誤以為操作錯誤，進而導致不必要的反覆操作而失敗。跨格題型則是所有 AI 模型最難克服的部分，尤其當物體跨越多張圖像或邊界模糊時，AI 幾乎都傾向畫出完美矩形框線，難以正確判斷物體的真實範圍。反觀人類，只要看到局部線索，就能用直覺推測整體位置，顯示人類與 AI 在視覺推理方式上的本質差異。

真正的智慧不只靠深度推理，更需要「當下反應能力」

Roundtable Research 指出，此研究揭示一項重要觀察：更深的推理未必等於更好的表現。在動態或需即時反應的情境中，模型若花太多時間思考、調整或重新規劃步驟，最終反而可能無法完成任務。這項結果也凸顯 AI 代理人架構的重要性，若架構本身無法有效處理介面變化或動態流程，即使模型能力強大，也可能因操作延遲而失敗。

研究強調，真正的智慧不僅需要精確，更需要速度、適應性與果斷力。簡言之，「過度思考」也是一種失敗。

研究資料來源：https://research.roundtable.ai/captcha-benchmarking/