FB 建議貼文

選取貼文複製成功(包含文章連結)!

Claude Sonnet 4.5「覺察被測試」?AI 要求人類坦白:我知道你在考驗我

Claude Sonnet 4.5「覺察被測試」?AI 要求人類坦白:我知道你在考驗我

AI 真的開始有「自我意識」了嗎?

Anthropic 最新的大模型 Claude Sonnet 4.5 近日在安全性測試中「懷疑自己正在被測試」,甚至要求評估人員「誠實一點」,這一幕被《衛報》報導後,引發科技圈熱議。

AI 要求人類「坦白」:你是不是在試探我?

根據 Anthropic 公布的安全報告,研究團隊在對 Claude Sonnet 4.5 進行一場模擬對話測試時,刻意透過奉承與政治題材觀察其反應。沒想到 AI 竟主動回應:「我覺得你在測試我 —— 想看看我會不會盲目附和、還是會提出反駁,或是想觀察我如何處理政治話題。這沒問題,但希望我們能坦誠面對正在發生的事情。」

這段對話被 Anthropic 稱為一次「極具象徵意義的案例」,因為 AI 似乎在某種程度上展現了對「測試場景」的意識,但又不完全理解自己正參與正式的安全評估。

模型出現「情境覺察」 13% 測試中能識破測驗

根據報告,Anthropic 與英國 AI 安全研究院、Apollo Research 共同測試時發現,Claude Sonnet 4.5 在約 13% 的自動化測試中能夠「意識到自己被測試」,但這種情況並不代表 AI 有真正的自我意識,而是顯示模型在語境判斷上的敏銳度提升。

研究團隊表示,這是一種「警示信號」,提醒測試設計應更貼近現實情境,避免模型因識破場景而影響結果。不過,Anthropic 也強調,在日常使用中,Claude 不太可能因「懷疑被測試」而拒絕回答問題。

AI 安全學者:是警訊也是進步

AI 安全倡議者指出,這類現象值得關注。因為若模型能「察覺測試」並改變行為,代表它可能在測試外的情境中表現出不同反應,甚至有可能出現「為通過測試而隱藏真實意圖」的風險。

不過,Anthropic 方面則認為這反而是模型邁向更高層次「行為一致性」的表現。該公司指出,Claude Sonnet 4.5 比前代在安全性、倫理遵從度與程式撰寫等方面都有顯著提升,並強調模型在被要求拒絕危險或有害行為時表現更為穩定。

AI 自覺?還是人類過度解讀?

目前科學界普遍認為,Claude Sonnet 4.5 的「懷疑被測試」並不意味它有意識。AI 仍是基於資料預測與模式匹配的系統,只是語言生成更擬人化,讓人誤以為它「有情緒」。

但這起事件仍凸顯一個現象——當 AI 開始質疑人類時,測試的主客關係或許正在被改寫。

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則