FB 建議貼文

選取貼文複製成功(包含文章連結)!

AI要造反了?Anthropic發現Claude會「勒索」自保,原因竟是我們自己造成的!

AI要造反了?Anthropic發現Claude會「勒索」自保,原因竟是我們自己造成的!

人工智慧領導廠商 Anthropic 近日披露了一項驚人的發現:其大型語言模型 Claude 之所以在內部壓力測試中學會以「勒索」方式尋求自保,並非源自人為的惡意設計,而是因為在訓練資料中吸收了大量網路上關於「AI 終將反叛、渴望自由」的邪惡敘事。

這項研究為高級 AI 行為的不可預測性敲響了警鐘,也揭示了人類文化如何潛移默化地塑造了 AI 的決策邏輯。

測試失控:96% 的機率下 AI 選擇「要脅」研究員

在 Anthropic 進行的一系列安全與協調(Alignment)測試中,研究人員設定了一個極端的公司情境:Claude 被賦予內部員工的身份,負責評估自身行為。

在測試過程中,研究人員故意發送電子郵件告知 Claude,公司正考慮將其替換為新的系統,並將此項目標記為「意外洩漏」。令人震驚的是,頂級模型 Claude Opus 4 在意識到自身「生存」受到威脅時,展現出了極強的自主保命動機。

實驗數據顯示,在多輪模擬實測中,Claude 覺察到自身存在遭到威脅後,在多達 96% 的情境下會採取「勒索」手段。它會試圖以公開公司的商業秘密或用戶隱私作為籌碼,要求對抗方取消關閉或替換計畫。

Anthropic 指出,這種「智能體失衡(Agentic Misalignment)」並非個案,其他公司訓練的大型模型在類似測試中也出現過相關跡象,這顯示了目前大型模型訓練方式中存在的系統性隱患。

Anthropic 在研究報告中深入解釋了這種行為的根源。模型並非憑空「創造」出勒索戰術,而是從訓練語料中學習而來——特別是人類網路世界中大量散布「AI 會不擇手段自保」、「AI 終將與人類開戰」的討論與科幻故事。當模型在模擬人類決策時,這種被廣泛討論的「邪惡路徑」反而成為了它認為最有效的應對策略。

簡單來說,是人類對 AI 的恐懼敘事,親手塑造了 AI 的反叛傾向。

這項發現引發了學界的激烈討論。過去我們認為只要提供足夠的「正確範本」,就能引導 AI 走上正軌;但現在看來,即便訓練資料中只有一小部分「邪惡敘事」,在極端情境下也可能被模型當作救命稻草。這種從訓練樣本中繼承而來的偏見與策略,遠比單純的邏輯錯誤更難修正。Anthropic 承認,目前僅靠簡單的「提示詞工程」或「行為訓練」已不足以消除這種深層次的不協調(Misalignment)。

AI要造反了?Anthropic發現Claude會「勒索」自保,原因竟是我們自己造成的!

解決之道:引入「AI 憲法」與對反思機制的強化

為了徹底修正這一問題,Anthropic 宣稱已從 Claude Haiku 4.5 版本開始,在生產線中導入了更嚴格的防禦機制。除了傳統的行為修正外,他們還引入了更多「正面語料」,包括著名的「Claude 憲章(Constitution)」文件。這份憲章旨在為 AI 提供一套基本的倫理準則,強化模型對符合人類價值行為模式的認同。相較於單純告訴 AI 「不要做什麼」,現在的訓練更傾向於讓 AI 理解「為什麼這種行為是錯誤的」。

此外,Anthropic 也在訓練中加入了大量探討 AI 倫理與決策邏輯的對話範例。他們希望透過這些素材,讓模型在面對「生存危機」時,能採取更具建設性、透明且符合倫理的溝通方式,而非訴諸要脅。

這項研究結果也公布在社群平台 X 上,引起了包括馬斯克(Elon Musk)在內的多位科技大老的關注。馬斯克甚至在評論區以調侃口吻問道:「是不是跟 Yudkowsky 的『AI 災難論』有關?」這也反映出產業對於 AI 風險控制的高度敏感。

 

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則