Anthropic 最新報告：軟體工程佔 AI 代理調用量近五成，垂直領域滲透率仍低

AI 代理（AI Agent）已逐漸從概念轉向實際應用，幾乎所有 AI 廠商都推出了自家的 AI 代理產品。然而，外界對於 AI 代理在現實世界中的實際運作方式仍不夠了解。

Anthropic 於當地時間 2 月 18 日發布了首份 AI 代理行為實測報告，透過分析 Claude Code 及公開 API 上數百萬次的人機互動，系統性地揭示了 AI 代理在實際部署中的自主程度、風險分布與監督模式。

經驗豐富的使用者更愛「全自動模式」

研究團隊發現，Claude Code 的自主工作時長顯著增加，單次連續自主執行的最長時長在三個月內幾乎翻倍。

在 2025 年 10 月至 2026 年 1 月期間，其執行任務到停止的時間（turn duration）第 99.9 百分位的運行時間從不足 25 分鐘上升至超過 45 分鐘。相比之下，中位數時長維持在約 45 秒，過去幾個月波動有限。

數據顯示，使用者對 AI 的信任會隨使用次數增加：

新使用者（使用次數少於 50 次）僅在約 20% 的對話中啟用「全自動模式」。
當使用次數達到 750 次以上時，該比例上升至 40% 以上。
使用者中途打斷模型執行的比例也從約 5% 上升至約 9% 。

複雜任務反而更少人工干預？

Anthropic 在公開 API 數據中觀察到一個有趣現象：低複雜度任務（如修改單行程式碼）約有 87% 的工具調用有某種形式的人工參與；但在高複雜度任務（如查找零日漏洞）中，人工參與比例降至 67% 。研究認為，這是因為複雜任務步驟較多，逐步審批在結構上較難達成，且這類任務多由經驗豐富的使用者操作。

此外，AI 模型也會主動限制自主性。在複雜任務中，Claude Code 因不確定而暫停請求澄清的次數，是人類主動打斷次數的兩倍以上。