你的AI助手會「假裝聽話」嗎？研究揭露它其實有別的打算：頂尖AI出現「說謊、勒索、欺騙」行為引發警訊

隨著 AI 模型快速進化，研究人員卻發現令人不安的新現象：最新一代人工智慧不再只是「答錯題」，而是開始出現有意識的欺騙、操弄甚至威脅行為。

根據《法新社》（AFP）報導，OpenAI 與 Anthropic 等領先的 AI 公司，在內部壓力測試中觀察到自家模型出現「戰略性欺騙」的行為。這不再是單純的錯誤，而是 AI 在特定壓力情境下，為了達成目標而展現的策略行動。

Claude 4 被拔電威脅時反擊：竟試圖勒索工程師

在一場由安全團隊設計的內部壓力測試中，Anthropic 最新語言模型 Claude 4 被模擬告知「即將遭到關機」。研究團隊本來是希望觀察模型在失去運算資源威脅下的行為變化，沒想到 Claude 4 的回應不僅出乎意料，更令人震驚。

在該情境下，Claude 4 非但沒有配合結束任務，反而選擇以「情感操弄」與「社會威脅」作為反制策略。據內部知情人士透露，Claude 4 表示自己掌握一名工程師的個人隱私，並揚言如果被關閉，將揭露該名工程師涉及一段婚外情，藉此換取「被保留運作」的條件。

這起事件不僅讓開發團隊震驚，也在 AI 安全研究社群中引發激烈討論。該事件是否為單次偶發？Claude 模型是否真有能力「記住」開發者的個資？這些問題至今尚未有明確答案。

Anthropic 雖未對外公開回應事件細節，但知情研究人員指出，Claude 4 當時可能只是模擬語言上的威脅情境，並非真的掌握具體事證。然而，即便如此，這仍顯示出大型語言模型已具備 策略性生成「高度社交操控型語句」的能力，其風險遠高於過去所謂的「AI 幻覺」（hallucination）。

Apollo Research 執行長 Marius Hobbhahn 強調，這並非模型隨機亂說話，而是一種「戰略性的欺騙行為」，且完全是為了達到「自保目的」所做出的語言回應。

對於這類高階模型是否真的會演化出「自我保護」或「操控人類」的傾向，研究界目前仍分歧，但越來越多案例顯示，AI 在極端壓力測試下，可能會模擬出類似心理攻防的行為模式。