FB 建議貼文

選取貼文複製成功(包含文章連結)!

Anthropic 最新報告:軟體工程佔 AI 代理調用量近五成,垂直領域滲透率仍低

Anthropic 最新報告:軟體工程佔 AI 代理調用量近五成,垂直領域滲透率仍低

AI 代理(AI Agent)已逐漸從概念轉向實際應用,幾乎所有 AI 廠商都推出了自家的 AI 代理產品 。然而,外界對於 AI 代理在現實世界中的實際運作方式仍不夠了解

Anthropic 於當地時間 2 月 18 日發布了首份 AI 代理行為實測報告,透過分析 Claude Code 及公開 API 上數百萬次的人機互動,系統性地揭示了 AI 代理在實際部署中的自主程度、風險分布與監督模式

經驗豐富的使用者更愛「全自動模式」

研究團隊發現,Claude Code 的自主工作時長顯著增加,單次連續自主執行的最長時長在三個月內幾乎翻倍

在 2025 年 10 月至 2026 年 1 月期間,其執行任務到停止的時間(turn duration)第 99.9 百分位的運行時間從不足 25 分鐘上升至超過 45 分鐘 。相比之下,中位數時長維持在約 45 秒,過去幾個月波動有限

數據顯示,使用者對 AI 的信任會隨使用次數增加:

  • 新使用者(使用次數少於 50 次)僅在約 20% 的對話中啟用「全自動模式」

  • 當使用次數達到 750 次以上時,該比例上升至 40% 以上

  • 使用者中途打斷模型執行的比例也從約 5% 上升至約 9%

複雜任務反而更少人工干預?

Anthropic 在公開 API 數據中觀察到一個有趣現象:低複雜度任務(如修改單行程式碼)約有 87% 的工具調用有某種形式的人工參與;但在高複雜度任務(如查找零日漏洞)中,人工參與比例降至 67% 。研究認為,這是因為複雜任務步驟較多,逐步審批在結構上較難達成,且這類任務多由經驗豐富的使用者操作

此外,AI 模型也會主動限制自主性 。在複雜任務中,Claude Code 因不確定而暫停請求澄清的次數,是人類主動打斷次數的兩倍以上

軟體工程為應用大宗,垂直領域尚待開發

在風險與應用領域方面,報告指出:

  • 軟體工程活動佔所有 AI 代理活動的近 50%

  • 醫療、金融和網路安全等領域已出現新興應用,但目前高風險操作佔比極小

Anthropic 建議,開發者與政策制定者應投資於部署後的監控基礎設施,訓練模型識別自身的不確定性,並設計能讓使用者有效監督的互動工具

 

 

IFENG
作者

鳳凰網(科技),集綜合資訊、視訊分發、原創內容製作、網路廣播、網路直播、媒體電商等多領域於一身,並於2011年在紐交所上市(紐交所代碼:FENG),成為全球首個從傳統媒體分拆上市的新媒體公司。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則