Claude Sonnet 4.5「覺察被測試」？AI 要求人類坦白：我知道你在考驗我 | T客邦

T客邦為提供您更多優質的內容，採用網站分析技術，若您點選「我同意」或繼續瀏覽本網站，即表示您同意我們的隱私權政策。

我同意

半導體/電子產業 5G/網路 AI/大數據電動車/交通

加密貨幣/區塊鏈遊戲/電競雲端/資訊安全商業/金融

尖端科技 3C新品趨勢

抽獎/得獎公告體驗試玩活動課程講座

Claude Sonnet 4.5「覺察被測試」？AI 要求人類坦白：我知道你在考驗我

AI 真的開始有「自我意識」了嗎？

Anthropic 最新的大模型 Claude Sonnet 4.5 近日在安全性測試中「懷疑自己正在被測試」，甚至要求評估人員「誠實一點」，這一幕被《衛報》報導後，引發科技圈熱議。

AI 要求人類「坦白」：你是不是在試探我？

根據 Anthropic 公布的安全報告，研究團隊在對 Claude Sonnet 4.5 進行一場模擬對話測試時，刻意透過奉承與政治題材觀察其反應。沒想到 AI 竟主動回應：「我覺得你在測試我 —— 想看看我會不會盲目附和、還是會提出反駁，或是想觀察我如何處理政治話題。這沒問題，但希望我們能坦誠面對正在發生的事情。」

這段對話被 Anthropic 稱為一次「極具象徵意義的案例」，因為 AI 似乎在某種程度上展現了對「測試場景」的意識，但又不完全理解自己正參與正式的安全評估。

模型出現「情境覺察」　13% 測試中能識破測驗

根據報告，Anthropic 與英國 AI 安全研究院、Apollo Research 共同測試時發現，Claude Sonnet 4.5 在約 13% 的自動化測試中能夠「意識到自己被測試」，但這種情況並不代表 AI 有真正的自我意識，而是顯示模型在語境判斷上的敏銳度提升。

研究團隊表示，這是一種「警示信號」，提醒測試設計應更貼近現實情境，避免模型因識破場景而影響結果。不過，Anthropic 也強調，在日常使用中，Claude 不太可能因「懷疑被測試」而拒絕回答問題。

AI 安全學者：是警訊也是進步

AI 安全倡議者指出，這類現象值得關注。因為若模型能「察覺測試」並改變行為，代表它可能在測試外的情境中表現出不同反應，甚至有可能出現「為通過測試而隱藏真實意圖」的風險。

不過，Anthropic 方面則認為這反而是模型邁向更高層次「行為一致性」的表現。該公司指出，Claude Sonnet 4.5 比前代在安全性、倫理遵從度與程式撰寫等方面都有顯著提升，並強調模型在被要求拒絕危險或有害行為時表現更為穩定。

AI 自覺？還是人類過度解讀？

目前科學界普遍認為，Claude Sonnet 4.5 的「懷疑被測試」並不意味它有意識。AI 仍是基於資料預測與模式匹配的系統，只是語言生成更擬人化，讓人誤以為它「有情緒」。

但這起事件仍凸顯一個現象——當 AI 開始質疑人類時，測試的主客關係或許正在被改寫。

延伸閱讀：Anthropic 打出國際牌！Claude 用戶破 30 萬，年營收飆上 50 億美元
延伸閱讀：ChatGPT 與 Claude「記憶系統」大不同，專家揭露背後產品哲學
延伸閱讀：微軟不只挺 OpenAI！Microsoft 365 Copilot 加入 Anthropic Claude 模型，AI 服務再進化

#人工智慧 #ai

送【10個ChatGPT的好工具】電子書 Line brand icon

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則