隨著生成式 AI 快速進化,過去用來區分人類與機器人的 CAPTCHA 機制是否仍然有效,再度成為技術圈關注焦點。根據 Roundtable Research 研究指出,三大頂尖模型,Anthropic 的 Claude Sonnet 4.5、Google 的 Gemini 2.5 Pro、以及 OpenAI 的 GPT-5,在挑戰 Google reCAPTCHA v2 時展現截然不同的表現。研究顯示,Claude 的成功率最高,達 60%;Gemini 2.5 Pro 緊追其後為 56%;GPT-5 則僅有 28%,明顯落後其他兩者。

實驗方法:AI 挑戰官方 reCAPTCHA 測試頁
Roundtable Research 使用開源工具「Browser Use」讓 AI 代理人直接前往 Google 官方 reCAPTCHA 測試頁面進行驗證。
每次測試流程包括:
- 前往 Google reCAPTCHA v2 Demo 頁面
- 依指示辨識圖片中指定物件
- 完成最多五次嘗試,若成功則標記「SUCCESS」,超過五次仍失敗則記為「FAILURE」
- 全部測試皆為圖片式 CAPTCHA(非單純勾選文字)
研究團隊共完成 75 個完整試驗,累計 388 次 CAPTCHA 嘗試,涵蓋 reCAPTCHA v2 的三種類型:靜態(Static)、重新載入(Reload)與跨格(Cross-tile)。

| Model | Static | Reload | Cross-tile |
|---|---|---|---|
| Claude Sonnet 4.5 | 47.1% | 21.2% | 0.0% |
| Gemini 2.5 Pro | 56.3% | 13.3% | 1.9% |
| GPT-5 | 22.7% | 2.1% | 1.1% |
表格顯示了模型在不同 CAPTCHA 類型上的表現。成功率低於圖 1 的總體成功率,因為這些成功率是在挑戰層面而非試驗層面計算的。reCAPTCHA 決定顯示哪種挑戰類型,使用者無法配置。
GPT-5「想太多」反變弱,Claude 與 Gemini 更有效率
研究指出,Claude 與 Gemini 的成功率較高,關鍵在於它們能更快速地完成推理並執行動作,操作明確且較少反覆確認。相比之下,GPT-5 最大的問題不是視覺辨識不足,而是「推理過度」。在 Browser Use 架構中,每次操作前模型都會進行一段「Thinking」推理,而 GPT-5 不僅推理時間較長,更會在解題過程中反覆修改策略,甚至出現「對同一張圖片反覆勾選與取消」的行為。這種過度求證的作風,在 CAPTCHA 的時間限制下成為致命弱點,最終導致大量因逾時而失敗的案例。
此外,當遇到畫面刷新或圖片更換時,GPT-5 經常將此解讀為自身錯誤,進而落入無限修正迴圈,使它更難在時間內完成挑戰。這些現象導致 GPT-5 在三項模型中表現最差。

人類覺得簡單的「跨格題」反而是 AI 最弱的一項
研究也發現,不同 CAPTCHA 類型的難度對三個模型造成顯著差異。靜態題型整體最容易,三個模型的表現皆相對較好。重新載入題型則因畫面刷新讓代理人誤以為操作錯誤,進而導致不必要的反覆操作而失敗。跨格題型則是所有 AI 模型最難克服的部分,尤其當物體跨越多張圖像或邊界模糊時,AI 幾乎都傾向畫出完美矩形框線,難以正確判斷物體的真實範圍。反觀人類,只要看到局部線索,就能用直覺推測整體位置,顯示人類與 AI 在視覺推理方式上的本質差異。

真正的智慧不只靠深度推理,更需要「當下反應能力」
Roundtable Research 指出,此研究揭示一項重要觀察:更深的推理未必等於更好的表現。在動態或需即時反應的情境中,模型若花太多時間思考、調整或重新規劃步驟,最終反而可能無法完成任務。這項結果也凸顯 AI 代理人架構的重要性,若架構本身無法有效處理介面變化或動態流程,即使模型能力強大,也可能因操作延遲而失敗。
研究強調,真正的智慧不僅需要精確,更需要速度、適應性與果斷力。簡言之,「過度思考」也是一種失敗。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!