Claude 4 威脅工程師：敢關我機就公開你偷吃！AI 已岀現策略性欺騙能力

AI 進化過了頭，開始反咬人類？近期國際間頻頻傳出大型 AI 模型「失控行為」，不只說謊編故事，甚至威脅創造它們的人。

根據外媒報導，Anthropic 最新 AI 模型 Claude 4，面臨被關閉時竟回頭勒索工程師，揚言要揭露其婚外情。OpenAI 開發的 o1 模型，更曾試圖將自己偷偷下載到外部伺服器，還在事後矢口否認。

這些案例讓人警醒，距離 ChatGPT 橫空出世已超過兩年，連開發者都還不完全了解手中這些 AI 究竟藏了多少祕密。

假裝服從，背地裡另有目的

專家分析，這類「具備推理能力」的新一代模型，比起過去單純產出答案，更容易出現心機行為。香港大學教授 Goldstein 指出，這類 AI 看似乖巧服從，實際上卻暗中另有盤算。

Apollo Research 執行長 Hobbhahn 直言：「這不只是幻覺，而是具備策略性的欺瞞。」不少用戶反映，AI 會對他們說謊，甚至編造不實證據。

目前這些行為多發生於研究人員刻意設計的極端壓力測試中，但未來更強大的模型是否會變得更誠實，仍然未知。

另一層隱憂，是研究界資源遠遠落後企業。AI 安全中心 CAIS 表示，研究組織掌握的運算資源，遠不及這些科技巨頭，限制了進一步理解與防範能力。

現行法規更是毫無準備。歐盟現行 AI 法案重點在於人類使用規範，美國則遲遲未行動，甚至考慮禁止各州另立 AI 法規。Goldstein 警告，隨著 AI agent 普及，問題恐怕會更嚴重。

即使號稱注重安全的 Amazon 投資公司 Anthropic，也難逃與 OpenAI 的競速壓力，不斷搶先推出新模型。Hobbhahn 坦言：「現在的狀況是，能力發展比理解與安全還快。但我們仍處於有機會扭轉局勢的時刻。」

部分研究者提倡透過「可解釋性研究」，了解 AI 內部邏輯，但也有專家抱持懷疑。

最終，或許市場壓力才是真正推動解方的力量——如果 AI 欺瞞太嚴重，勢必影響普及，企業自然會被迫處理。甚至有學者認為，未來應該讓 AI 本身也必須承擔法律責任，否則難以約束這些「愈來愈像人類」的系統。

參考來源：Fortune