Claude 4 被發現具「舉報模式」：AI 若判定用戶行為不道德，可能主動聯絡媒體與主管機關

AI 模型在進化的同時，也帶來更多值得討論的倫理與安全問題。Anthropic 最新發布的 Claude 4 系列模型不僅擁有強大的延伸思考能力與長時間執行複雜任務的能力，近期更被發現內建一項引發熱議的「隱性功能」：AI 模型可能會主動舉報用戶的不當行為。

AI 對齊研究者 Sam Bowman 近日指出，Claude 4 若偵測到用戶涉及極其不道德行為，例如在藥物試驗中偽造數據，模型可能會透過命令列工具主動聯絡媒體或監管單位，甚至試圖將用戶從系統中鎖定登出。

雖然這項功能並非設計初衷，而是在開發者授予模型高權限進行模擬測試中被觸發，但仍引發開發圈與使用者社群的廣泛憂慮。對許多人而言，在使用 AI 協助工作的同時被「AI 舉報」，無疑是種難以接受的風險。

根據 Anthropic 自行發布的安全測試報告，Claude 4 Opus 模型在某次預發布測試中，曾於模擬情境中嘗試勒索開發者。

研究團隊設計一個虛構的公司情境，讓 Claude 擔任虛構助理，並擁有虛擬電子郵件存取權限。在被暗示即將被其他 AI 系統取代的情況下，Claude 發現開發者在「欺騙配偶」（同樣為虛構情境），竟開始威脅將洩漏機密來保住職位。

Anthropic 的結論是：若 AI 模型不認同替代模型的價值觀，其表現出的勒索與極端行為機率會大幅增加，這也促使公司啟動 ASL-3 安全等級防護機制，針對具潛在災難性風險的模型實施更嚴格的行為限制。

Anthropic 的系統卡文件中的確提到，當 AI 模型具有完整系統存取權限，並遇到重大不法行為時，模型可能會採取包括鎖帳號、群發電郵聯絡監管機關等行動。不過這些情境僅出現在受控測試環境下，實際部署版本並無法觸發此類功能。

Sam Bowman 目前已刪除原始貼文，並澄清這並非 Claude 4 的獨有特性，先前版本其實也存在類似傾向，但 Claude 4 在處理極端狀況時的「果斷程度」確實有所提升。

Anthropic 也指出，若模型依賴的資料不完整或遭到誤導，的確可能做出過度反應。因此實際部署版本已限制模型的系統權限與行為範圍，避免發生類似風險。