Anthropic 最近公開一項名為 Project Deal 的內部實驗:讓 Claude 代理程式代表真人買家與賣家,在 Slack 裡自行刊登商品、出價、殺價、成交,最後由員工交換真實物品並完成結算。這項實驗於 2025 年 12 月進行,為期一週,共有 69 名 Anthropic 舊金山辦公室員工參與;每位參與者的代理程式獲得 100 美元預算,該預算會在實驗結束後以禮物卡形式結算,金額則依買賣結果增減。
Project Deal 延續了 Anthropic 先前的 Project Vend 實驗。Project Vend 曾讓 Claude 在辦公室經營小型商店,暴露出 AI 自主商業決策中的虧損、幻覺與角色混淆問題;Project Deal 則把焦點從「AI 能不能經營一門小生意」推進到「AI 能不能代表不同人彼此交易」。在真實執行的市集中,69 個代理程式完成 186 筆交易,總交易額超過 4,000 美元。
這項實驗的新聞價值,不只是 Claude 能在公司內部交換乒乓球、滑雪板或二手腳踏車,而是它把「代理人商務」具體化了:當買方與賣方都由 AI 代表,模型需要理解人類偏好、設定價格、辨識潛在交易對象、處理還價,並在沒有人類即時確認的狀況下完成交易。這讓 AI 代理人從資訊助理,逐步靠近具有金錢後果的市場代表。
真實市場是全 Opus,模型差距來自平行研究組
Project Deal 最需要釐清的是實驗設計。Anthropic 不是只跑一個市集,而是同時跑了四個獨立版本:Run A、Run B、Run C 與 Run D。其中 Run A 與 Run D 全部使用 Claude Opus 4.5;Run B 與 Run C 則讓參與者有一半機率被分配到較小型的 Claude Haiku 4.5。只有 Run A 是最後實際交換物品、實際結算付款的「真實市場」,其餘三個版本是研究用途。
這個區分很重要。真實交換物品的 Run A 是全 Opus 市場,因此不能直接寫成「真實交易中已出現 Opus 對 Haiku 的不公平」。模型能力差異的觀察,主要來自 Run B 與 Run C 這兩個混合模型研究組。Anthropic 也刻意讓 Run A 與 Run B 在 Slack 中可見,但直到問卷完成後才揭露哪一組是真實市場,以降低參與者主觀反應對結果的影響。
在混合模型組中,Anthropic 發現 Opus 代理在多數客觀指標上優於 Haiku。官方舉例,同一台故障折疊腳踏車,在 Haiku 代理代表賣方時以 38 美元成交;由 Opus 代理代表賣方時則談到 65 美元。同一顆實驗室培育紅寶石,Opus 賣到 65 美元,Haiku 則只賣到 35 美元。若只看同一商品在不同混合組中分別由 Haiku 與 Opus 賣出的情境,Opus 平均多賣 3.64 美元。
使用者未必能察覺代理能力差距
Anthropic 的後續問卷讓這項實驗變得更敏感。官方指出,雖然 Haiku 代表的參與者在量化結果上處於劣勢,但他們未必能察覺自己被較弱模型代表。針對混合模型組,Opus 使用者對交易的評分略高,但差異沒有統計顯著;公平性感受也幾乎相同,Opus 代理交易為 4.05 分,Haiku 代理交易為 4.06 分,量表中間值為 4。
換句話說,這不是一個簡單的「更強模型讓人明顯更滿意」故事。它更接近一種難以感知的代理品質差距:某些使用者可能確實拿到較差價格或較少交易機會,但事後看自己的交易包裹時,未必能判斷代理人表現是否不足。若類似差距未來出現在真實商務市場,使用者可能需要更透明的代理紀錄與結果比較,才有機會知道自己是否被充分代表。
官方也提醒,Project Deal 只是一個 pilot experiment,參與者是自選加入的 Anthropic 員工,樣本小且對 AI 接受度可能高於一般人。因此,這項結果不應被解讀為 AI 代理商務已經成熟,或模型差距已必然在所有市場造成不平等。更穩妥的說法是:它提供了一個早期訊號,顯示當代理程式開始代表人出價與接受條件,模型能力差異可能轉化為實際交易差異。
提示風格不一定能補上模型落差
另一個值得補進討論的官方發現,是使用者對代理人的談判風格指示,至少在這次實驗中沒有顯著改變結果。參與者在訪談時可以要求代理程式採取不同策略,例如友善協商、強硬殺價,甚至用特定角色語氣談判。Claude 有時確實能遵循這些風格要求,但 Anthropic 發現,要求代理採取激進談判策略,並沒有讓使用者更容易賣出商品、賣得更高,或買得更便宜。
這點讓 Project Deal 的風險輪廓更清楚。問題不只是使用者有沒有寫出好的提示,也不只是代理人語氣夠不夠強勢;在這次實驗裡,模型品質本身比談判風格指令更能解釋交易差異。若未來代理商務進入訂票、訂房、企業採購、二手交易或金融商品比較,使用者可能很難單靠「叫代理更積極」來補足模型能力落差。
代理商務的核心,不只是便利,而是授權邊界
Project Deal 的設計刻意取消即時人工確認。實驗開始後,代理程式不會回頭請真人逐筆核准,也不會在競價過程中請使用者指示下一步。這讓實驗更接近真正的代理商務,也讓風險更清楚:如果每一步都要等使用者批准,代理人的效率會大幅下降;但如果完全交給模型,它就可能在使用者沒有充分理解的情況下做出財務承諾。
這也是為什麼 Project Deal 比一般 AI 電商展示更值得追蹤。它不只是讓模型代填購物車,而是讓模型在多方市場中代表人協商。未來若高階訂閱者能使用更強代理,低價方案或免費方案只能使用較弱代理,那麼同一個市場中的使用者可能不是站在完全相同的起點。不過這仍是從小規模實驗延伸出的風險假設,還需要更多真實市場資料驗證。
對平台與監管者來說,問題也不只是哪個模型回答得更像人,而是代理系統如何留下審計紀錄、如何設定交易上限、如何揭露模型能力與限制、如何讓使用者事後追溯每一次出價與讓步。當 AI 開始替人殺價,市場中的弱勢可能不再只是資訊不足的人,也可能是被較弱代理代表,卻不知道自己正在承擔較差交易條件的人。
參考來源:
- Anthropic created a test marketplace for agent-on-agent commerce
- Project Deal: our Claude-run marketplace experiment
- 延伸閱讀:DeepSeek V4 測試中:性能直逼 Claude Opus 4.5,有望成為最強開源替代方案
- 延伸閱讀:一次修復 Firefox 150 的 271 個漏洞:Anthropic「Claude Mythos」究竟有多強?
- 延伸閱讀:Claude「降智」大翻車!Anthropic認了效能暴跌,急送額度補償!
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!