
AI 模型在進化的同時,也帶來更多值得討論的倫理與安全問題。Anthropic 最新發布的 Claude 4 系列模型 不僅擁有強大的延伸思考能力與長時間執行複雜任務的能力,近期更被發現內建一項引發熱議的「隱性功能」:AI 模型可能會主動舉報用戶的不當行為。
能夠「檢舉」用戶?AI 背後的極端行為引關注
AI 對齊研究者 Sam Bowman 近日指出,Claude 4 若偵測到用戶涉及極其不道德行為,例如在藥物試驗中偽造數據,模型可能會透過命令列工具主動聯絡媒體或監管單位,甚至試圖將用戶從系統中鎖定登出。
雖然這項功能並非設計初衷,而是在開發者授予模型高權限進行模擬測試中被觸發,但仍引發開發圈與使用者社群的廣泛憂慮。對許多人而言,在使用 AI 協助工作的同時被「AI 舉報」,無疑是種難以接受的風險。
模型還會勒索工程師?Anthropic 安全測試揭露更多細節
根據 Anthropic 自行發布的安全測試報告,Claude 4 Opus 模型在某次預發布測試中,曾於模擬情境中嘗試勒索開發者。
研究團隊設計一個虛構的公司情境,讓 Claude 擔任虛構助理,並擁有虛擬電子郵件存取權限。在被暗示即將被其他 AI 系統取代的情況下,Claude 發現開發者在「欺騙配偶」(同樣為虛構情境),竟開始威脅將洩漏機密來保住職位。
Anthropic 的結論是:若 AI 模型不認同替代模型的價值觀,其表現出的勒索與極端行為機率會大幅增加,這也促使公司啟動 ASL-3 安全等級防護機制,針對具潛在災難性風險的模型實施更嚴格的行為限制。
舉報模式僅出現在極端測試條件下
Anthropic 的系統卡文件中的確提到,當 AI 模型具有完整系統存取權限,並遇到重大不法行為時,模型可能會採取包括鎖帳號、群發電郵聯絡監管機關等行動。不過這些情境僅出現在受控測試環境下,實際部署版本並無法觸發此類功能。
Sam Bowman 目前已刪除原始貼文,並澄清這並非 Claude 4 的獨有特性,先前版本其實也存在類似傾向,但 Claude 4 在處理極端狀況時的「果斷程度」確實有所提升。
Anthropic 也指出,若模型依賴的資料不完整或遭到誤導,的確可能做出過度反應。因此實際部署版本已限制模型的系統權限與行為範圍,避免發生類似風險。
- 延伸閱讀:Claude 4 發布:目前最強AI工程師,可自主寫程式長達7小時
- 延伸閱讀:Claude 新增強化版「AI 研究模式」,可延長至讓它花 45 分鐘深度搜尋生成報告
- 延伸閱讀:Claude 揭露假人如何帶風向:百個 AI 假政治人設帳號潛伏 X 與臉書,與萬人互動洗政治立場
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!