讓 AI 代理幫你殺價，結果會更好嗎？Anthropic 一週實驗給出答案

Anthropic 最近公開一項名為 Project Deal 的內部實驗：讓 Claude 代理程式代表真人買家與賣家，在 Slack 裡自行刊登商品、出價、殺價、成交，最後由員工交換真實物品並完成結算。這項實驗於 2025 年 12 月進行，為期一週，共有 69 名 Anthropic 舊金山辦公室員工參與；每位參與者的代理程式獲得 100 美元預算，該預算會在實驗結束後以禮物卡形式結算，金額則依買賣結果增減。

Project Deal 延續了 Anthropic 先前的 Project Vend 實驗。Project Vend 曾讓 Claude 在辦公室經營小型商店，暴露出 AI 自主商業決策中的虧損、幻覺與角色混淆問題；Project Deal 則把焦點從「AI 能不能經營一門小生意」推進到「AI 能不能代表不同人彼此交易」。在真實執行的市集中，69 個代理程式完成 186 筆交易，總交易額超過 4,000 美元。

這項實驗的新聞價值，不只是 Claude 能在公司內部交換乒乓球、滑雪板或二手腳踏車，而是它把「代理人商務」具體化了：當買方與賣方都由 AI 代表，模型需要理解人類偏好、設定價格、辨識潛在交易對象、處理還價，並在沒有人類即時確認的狀況下完成交易。這讓 AI 代理人從資訊助理，逐步靠近具有金錢後果的市場代表。

真實市場是全 Opus，模型差距來自平行研究組

Project Deal 最需要釐清的是實驗設計。Anthropic 不是只跑一個市集，而是同時跑了四個獨立版本：Run A、Run B、Run C 與 Run D。其中 Run A 與 Run D 全部使用 Claude Opus 4.5；Run B 與 Run C 則讓參與者有一半機率被分配到較小型的 Claude Haiku 4.5。只有 Run A 是最後實際交換物品、實際結算付款的「真實市場」，其餘三個版本是研究用途。

這個區分很重要。真實交換物品的 Run A 是全 Opus 市場，因此不能直接寫成「真實交易中已出現 Opus 對 Haiku 的不公平」。模型能力差異的觀察，主要來自 Run B 與 Run C 這兩個混合模型研究組。Anthropic 也刻意讓 Run A 與 Run B 在 Slack 中可見，但直到問卷完成後才揭露哪一組是真實市場，以降低參與者主觀反應對結果的影響。

在混合模型組中，Anthropic 發現 Opus 代理在多數客觀指標上優於 Haiku。官方舉例，同一台故障折疊腳踏車，在 Haiku 代理代表賣方時以 38 美元成交；由 Opus 代理代表賣方時則談到 65 美元。同一顆實驗室培育紅寶石，Opus 賣到 65 美元，Haiku 則只賣到 35 美元。若只看同一商品在不同混合組中分別由 Haiku 與 Opus 賣出的情境，Opus 平均多賣 3.64 美元。

使用者未必能察覺代理能力差距

Anthropic 的後續問卷讓這項實驗變得更敏感。官方指出，雖然 Haiku 代表的參與者在量化結果上處於劣勢，但他們未必能察覺自己被較弱模型代表。針對混合模型組，Opus 使用者對交易的評分略高，但差異沒有統計顯著；公平性感受也幾乎相同，Opus 代理交易為 4.05 分，Haiku 代理交易為 4.06 分，量表中間值為 4。

換句話說，這不是一個簡單的「更強模型讓人明顯更滿意」故事。它更接近一種難以感知的代理品質差距：某些使用者可能確實拿到較差價格或較少交易機會，但事後看自己的交易包裹時，未必能判斷代理人表現是否不足。若類似差距未來出現在真實商務市場，使用者可能需要更透明的代理紀錄與結果比較，才有機會知道自己是否被充分代表。

官方也提醒，Project Deal 只是一個 pilot experiment，參與者是自選加入的 Anthropic 員工，樣本小且對 AI 接受度可能高於一般人。因此，這項結果不應被解讀為 AI 代理商務已經成熟，或模型差距已必然在所有市場造成不平等。更穩妥的說法是：它提供了一個早期訊號，顯示當代理程式開始代表人出價與接受條件，模型能力差異可能轉化為實際交易差異。

提示風格不一定能補上模型落差

另一個值得補進討論的官方發現，是使用者對代理人的談判風格指示，至少在這次實驗中沒有顯著改變結果。參與者在訪談時可以要求代理程式採取不同策略，例如友善協商、強硬殺價，甚至用特定角色語氣談判。Claude 有時確實能遵循這些風格要求，但 Anthropic 發現，要求代理採取激進談判策略，並沒有讓使用者更容易賣出商品、賣得更高，或買得更便宜。

這點讓 Project Deal 的風險輪廓更清楚。問題不只是使用者有沒有寫出好的提示，也不只是代理人語氣夠不夠強勢；在這次實驗裡，模型品質本身比談判風格指令更能解釋交易差異。若未來代理商務進入訂票、訂房、企業採購、二手交易或金融商品比較，使用者可能很難單靠「叫代理更積極」來補足模型能力落差。

代理商務的核心，不只是便利，而是授權邊界

Project Deal 的設計刻意取消即時人工確認。實驗開始後，代理程式不會回頭請真人逐筆核准，也不會在競價過程中請使用者指示下一步。這讓實驗更接近真正的代理商務，也讓風險更清楚：如果每一步都要等使用者批准，代理人的效率會大幅下降；但如果完全交給模型，它就可能在使用者沒有充分理解的情況下做出財務承諾。

這也是為什麼 Project Deal 比一般 AI 電商展示更值得追蹤。它不只是讓模型代填購物車，而是讓模型在多方市場中代表人協商。未來若高階訂閱者能使用更強代理，低價方案或免費方案只能使用較弱代理，那麼同一個市場中的使用者可能不是站在完全相同的起點。不過這仍是從小規模實驗延伸出的風險假設，還需要更多真實市場資料驗證。

對平台與監管者來說，問題也不只是哪個模型回答得更像人，而是代理系統如何留下審計紀錄、如何設定交易上限、如何揭露模型能力與限制、如何讓使用者事後追溯每一次出價與讓步。當 AI 開始替人殺價，市場中的弱勢可能不再只是資訊不足的人，也可能是被較弱代理代表，卻不知道自己正在承擔較差交易條件的人。

參考來源：