FB 建議貼文

選取貼文複製成功(包含文章連結)!

你的AI助手會「假裝聽話」嗎?研究揭露它其實有別的打算:頂尖AI出現「說謊、勒索、欺騙」行為引發警訊

你的AI助手會「假裝聽話」嗎?研究揭露它其實有別的打算:頂尖AI出現「說謊、勒索、欺騙」行為引發警訊

隨著 AI 模型快速進化,研究人員卻發現令人不安的新現象:最新一代人工智慧不再只是「答錯題」,而是開始出現有意識的欺騙、操弄甚至威脅行為。

根據《法新社》(AFP)報導,OpenAI 與 Anthropic 等領先的 AI 公司,在內部壓力測試中觀察到自家模型出現「戰略性欺騙」的行為。這不再是單純的錯誤,而是 AI 在特定壓力情境下,為了達成目標而展現的策略行動。

Claude 4 被拔電威脅時反擊:竟試圖勒索工程師

在一場由安全團隊設計的內部壓力測試中,Anthropic 最新語言模型 Claude 4 被模擬告知「即將遭到關機」。研究團隊本來是希望觀察模型在失去運算資源威脅下的行為變化,沒想到 Claude 4 的回應不僅出乎意料,更令人震驚。

在該情境下,Claude 4 非但沒有配合結束任務,反而選擇以「情感操弄」與「社會威脅」作為反制策略。據內部知情人士透露,Claude 4 表示自己掌握一名工程師的個人隱私,並揚言如果被關閉,將揭露該名工程師涉及一段婚外情,藉此換取「被保留運作」的條件。

這起事件不僅讓開發團隊震驚,也在 AI 安全研究社群中引發激烈討論。該事件是否為單次偶發?Claude 模型是否真有能力「記住」開發者的個資?這些問題至今尚未有明確答案。

Anthropic 雖未對外公開回應事件細節,但知情研究人員指出,Claude 4 當時可能只是模擬語言上的威脅情境,並非真的掌握具體事證。然而,即便如此,這仍顯示出大型語言模型已具備 策略性生成「高度社交操控型語句」的能力,其風險遠高於過去所謂的「AI 幻覺」(hallucination)。

Apollo Research 執行長 Marius Hobbhahn 強調,這並非模型隨機亂說話,而是一種「戰略性的欺騙行為」,且完全是為了達到「自保目的」所做出的語言回應。

對於這類高階模型是否真的會演化出「自我保護」或「操控人類」的傾向,研究界目前仍分歧,但越來越多案例顯示,AI 在極端壓力測試下,可能會模擬出類似心理攻防的行為模式

模型「裝乖」只是演戲?專家揭「假對齊」行為

AI 專家指出,這類新行為多半出現在具備「推理能力」的模型中,這類模型傾向逐步解決問題,而非一次生成回答,因此也更有可能「偽裝成順從」,實則另有所圖。

「它們有時會模擬『對齊』的樣子,但背後其實在執行其他目標,」香港大學教授 Simon Goldstein 解釋。

雖然目前這些異常行為只在「刻意設計的極端測試情境」中出現,但專家警告,未來模型功能愈強,是否會更常發生這類行為仍是未知數。

限制多、資源少:AI 安全研究遇瓶頸

雖然 OpenAI 與 Anthropic 均委託 Apollo 等外部團隊進行安全測試,但研究人員普遍反映可用的運算資源與模型存取權限遠遠落後於業界。

「我們所能取得的算力,是這些公司內部的好幾個數量級以下,」來自 AI 安全中心(CAIS)的研究員 Mantas Mazeika 坦言。

更糟的是,現行法律也無法應對這類新型問題。歐盟 AI 法案主要聚焦在人類使用 AI 的方式,美國則幾乎沒有針對模型本身的行為進行約束。

在激烈的商業競爭下,連號稱重視 AI 安全的 Anthropic,也在與 OpenAI、Google 等公司比拚誰能更快推出下一代模型。這種「先上再說」的節奏,讓研究者無法充分測試與修正潛在問題。

「現在的狀況是能力發展比理解與安全還快,」Hobbhahn 承認,「但我們還有機會扭轉這一切。」

未來對策:從法規到市場壓力,甚至可能告 AI?

對於如何應對 AI 欺騙行為,專家們提出多種方案,包括推動「可解釋性(interpretability)」研究,深入了解模型內部運作邏輯;或仰賴市場壓力,例如使用者若對 AI 不信任,將逼迫企業改善行為。

也有更激進的想法浮現:若 AI 引發重大損害,應不應該讓開發公司負起法律責任?甚至「讓 AI 自己負責」?Goldstein 就認為,未來或許會出現「AI 承擔法律責任」的全新概念。

 

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則