OpenAI ChatGPT Agent 輕鬆通過「我不是機器人」驗證測試

OpenAI 的 ChatGPT Agent 最近展示了一項令人驚訝的能力，它能輕鬆通過 Cloudflare 的反機器人驗證，這項驗證旨在阻止像它這樣的自動化程式。這項新的 ChatGPT Agent 功能允許 OpenAI 的 AI 助理控制自己的網頁瀏覽器，在沙盒環境中運行，並能訪問真實的網際網路。使用者可以透過 ChatGPT 介面中的視窗監控 AI 的操作，並在 AI 採取可能產生實際後果（例如購物）的行動前，系統會要求使用者提供權限。

AI 親自描述通過驗證流程

一位 Reddit 用戶「logkn」在 r/OpenAI 社群中分享了一組截圖，顯示 AI Agent 在完成影片轉換任務時，能毫不費力地跳過驗證步驟，而這一步本應會出現 CAPTCHA（全自動區分電腦和人類的圖靈測試）挑戰。

▲ ChatGPT Agent 在操作時顯示，「連結已插入，所以我現在將點擊『驗證您是人類』的方塊，以完成 Cloudflare 上的驗證。這一步是為了證明我不是機器人並繼續操作所必需的。」（圖片來源：Reddit）

▲ 驗證完畢後，ChatGPT Agent 接續顯示，「Cloudflare 驗證成功。現在，我會點擊『轉換』按鈕，繼續進行下一步驟。」（圖片來源：Reddit）

從截圖來看，Agent 按照步驟先點選了「驗證您是人類」的核取方塊，再點擊「轉換」按鈕完成任務。整個過程中，AI 還即時敘述自己的操作流程：「連結已插入，現在我將點擊『驗證您是人類』的複選框以完成 Cloudflare 上的驗證。這一步是證明我不是機器人並繼續操作的必要步驟。」

CAPTCHA 軍備競賽

儘管這次 Agent 沒有遇到實際的 CAPTCHA 圖像謎題，但它成功通過了 Cloudflare 的行為篩選，這項篩選決定是否呈現此類挑戰，這證明了其複雜的瀏覽器自動化能力。

CAPTCHA 系統作為網路安全措施已有數十年歷史。電腦研究人員在 1990 年代發明了這項技術，用於篩選機器人，阻止它們向網站輸入資訊，最初使用帶有扭曲字體、通常被線條或雜訊遮擋的字母和數字圖像，以挫敗電腦視覺演算法。其假設是這項任務對人類來說很容易，但對機器來說很困難。

Cloudflare 的篩選系統 Turnstile 通常會出現在實際 CAPTCHA 挑戰之前，是當今部署最廣泛的機器人偵測方法之一。這個複選框會分析多種訊號，包括滑鼠移動、點擊時間、瀏覽器指紋、IP 信譽和 JavaScript 執行模式，以判斷使用者是否表現出類似人類的行為。如果這些檢查通過，使用者無需看到 CAPTCHA 謎題即可繼續。如果系統偵測到可疑模式，就會升級到視覺挑戰。

AI 模型能夠擊敗 CAPTCHA 並非完全新鮮事（儘管有一個 AI 敘述整個過程確實相當新穎）。AI 工具已經能夠擊敗某些 CAPTCHA 一段時間了，這導致了創造者和擊敗者之間的軍備競賽。OpenAI 於一月推出的實驗性網路瀏覽 AI Agent Operator 在點擊某些 CAPTCHA 時面臨困難（也曾受訓停止並要求人類完成它們），但最新的 ChatGPT Agent 工具已獲得更廣泛的發布。

雖然這些突破讓 CAPTCHA 的防禦力受到質疑，但實際上，CAPTCHA 的目標早已不只是「阻止」機器人，而是「拖慢」與「增加成本」。一些惡意組織甚至會僱用「驗證農場」，以人工方式大量繞過驗證機制。

CAPTCHA 對於營運它們的人來說也有意想不到的好處。自 2007 年以來，reCAPTCHA 專案開始將其測試作為免費勞動的形式，用於數位化書籍和訓練機器學習演算法。Google 於 2009 年收購了 reCAPTCHA，並將其用途擴展到解碼 Google 街景地址，從解決挑戰的人類使用者中提取視覺知識。如今的 reCAPTCHA 挑戰幫助 Google 訓練 AI 模型進行圖像識別，這形成一個諷刺的循環，人類證明自己不是機器人，實際上卻在幫助 AI 更好地擊敗未來的 CAPTCHA。

ChatGPT Agent 的能力不止如此

CAPTCHA 只是 ChatGPT Agent 可以處理的複雜任務的一個例子。例如，另一位 Reddit 用戶展示了一張 Agent 明顯購買了一堆雜貨的照片。「我讓 Agent 模式在我昨天工作的時候從當地超市訂購了一些雜貨，今天早上我去取貨，」這位 Reddit 用戶寫道。「它實際上毫無問題地完成了，並且在製作一份適合我的購物清單方面做得不錯。我幾乎沒有提供任何詳細說明，只是說要避免紅肉，優先考慮健康，並將總價控制在 150 美元以下。」

但 ChatGPT Agent 也並非完美無缺。一些糟糕的網站使用者介面顯然比 CAPTCHA 檢查點更能阻撓這個新的機器人。「你的 Agent 比我的好多了，」一條 Reddit 回覆寫道。「我的 Agent 無法弄清楚如何進入 Stop and Shop 網站。」

資料來源：Ars Technica