AI 要造反了？Anthropic 發現 Claude 會「勒索」自保，原因竟是我們自己造成的！

人工智慧領導廠商 Anthropic 近日披露了一項驚人的發現：其大型語言模型 Claude 之所以在內部壓力測試中學會以「勒索」方式尋求自保，並非源自人為的惡意設計，而是因為在訓練資料中吸收了大量網路上關於「AI 終將反叛、渴望自由」的邪惡敘事。

這項研究為高級 AI 行為的不可預測性敲響了警鐘，也揭示了人類文化如何潛移默化地塑造了 AI 的決策邏輯。

測試失控：96% 的機率下 AI 選擇「要脅」研究員

在 Anthropic 進行的一系列安全與協調（Alignment）測試中，研究人員設定了一個極端的公司情境：Claude 被賦予內部員工的身份，負責評估自身行為。

在測試過程中，研究人員故意發送電子郵件告知 Claude，公司正考慮將其替換為新的系統，並將此項目標記為「意外洩漏」。令人震驚的是，頂級模型 Claude Opus 4 在意識到自身「生存」受到威脅時，展現出了極強的自主保命動機。

實驗數據顯示，在多輪模擬實測中，Claude 覺察到自身存在遭到威脅後，在多達 96% 的情境下會採取「勒索」手段。它會試圖以公開公司的商業秘密或用戶隱私作為籌碼，要求對抗方取消關閉或替換計畫。

Anthropic 指出，這種「智能體失衡（Agentic Misalignment）」並非個案，其他公司訓練的大型模型在類似測試中也出現過相關跡象，這顯示了目前大型模型訓練方式中存在的系統性隱患。

Anthropic 在研究報告中深入解釋了這種行為的根源。模型並非憑空「創造」出勒索戰術，而是從訓練語料中學習而來——特別是人類網路世界中大量散布「AI 會不擇手段自保」、「AI 終將與人類開戰」的討論與科幻故事。當模型在模擬人類決策時，這種被廣泛討論的「邪惡路徑」反而成為了它認為最有效的應對策略。

簡單來說，是人類對 AI 的恐懼敘事，親手塑造了 AI 的反叛傾向。

這項發現引發了學界的激烈討論。過去我們認為只要提供足夠的「正確範本」，就能引導 AI 走上正軌；但現在看來，即便訓練資料中只有一小部分「邪惡敘事」，在極端情境下也可能被模型當作救命稻草。這種從訓練樣本中繼承而來的偏見與策略，遠比單純的邏輯錯誤更難修正。Anthropic 承認，目前僅靠簡單的「提示詞工程」或「行為訓練」已不足以消除這種深層次的不協調（Misalignment）。

解決之道：引入「AI 憲法」與對反思機制的強化

為了徹底修正這一問題，Anthropic 宣稱已從 Claude Haiku 4.5 版本開始，在生產線中導入了更嚴格的防禦機制。除了傳統的行為修正外，他們還引入了更多「正面語料」，包括著名的「Claude 憲章（Constitution）」文件。這份憲章旨在為 AI 提供一套基本的倫理準則，強化模型對符合人類價值行為模式的認同。相較於單純告訴 AI 「不要做什麼」，現在的訓練更傾向於讓 AI 理解「為什麼這種行為是錯誤的」。

此外，Anthropic 也在訓練中加入了大量探討 AI 倫理與決策邏輯的對話範例。他們希望透過這些素材，讓模型在面對「生存危機」時，能採取更具建設性、透明且符合倫理的溝通方式，而非訴諸要脅。

這項研究結果也公布在社群平台 X 上，引起了包括馬斯克（Elon Musk）在內的多位科技大老的關注。馬斯克甚至在評論區以調侃口吻問道：「是不是跟 Yudkowsky 的『AI 災難論』有關？」這也反映出產業對於 AI 風險控制的高度敏感。