FB 建議貼文

選取貼文複製成功(包含文章連結)!

Claude 4 被發現具「舉報模式」 AI 若判定用戶行為不道德,可能主動聯絡媒體與主管機關

Claude 4 被發現具「舉報模式」 AI 若判定用戶行為不道德,可能主動聯絡媒體與主管機關

AI 模型在進化的同時,也帶來更多值得討論的倫理與安全問題。Anthropic 最新發布的 Claude 4 系列模型 不僅擁有強大的延伸思考能力與長時間執行複雜任務的能力,近期更被發現內建一項引發熱議的「隱性功能」:AI 模型可能會主動舉報用戶的不當行為。

能夠「檢舉」用戶?AI 背後的極端行為引關注

AI 對齊研究者 Sam Bowman 近日指出,Claude 4 若偵測到用戶涉及極其不道德行為,例如在藥物試驗中偽造數據,模型可能會透過命令列工具主動聯絡媒體或監管單位,甚至試圖將用戶從系統中鎖定登出。

雖然這項功能並非設計初衷,而是在開發者授予模型高權限進行模擬測試中被觸發,但仍引發開發圈與使用者社群的廣泛憂慮。對許多人而言,在使用 AI 協助工作的同時被「AI 舉報」,無疑是種難以接受的風險。

模型還會勒索工程師?Anthropic 安全測試揭露更多細節

根據 Anthropic 自行發布的安全測試報告,Claude 4 Opus 模型在某次預發布測試中,曾於模擬情境中嘗試勒索開發者。

研究團隊設計一個虛構的公司情境,讓 Claude 擔任虛構助理,並擁有虛擬電子郵件存取權限。在被暗示即將被其他 AI 系統取代的情況下,Claude 發現開發者在「欺騙配偶」(同樣為虛構情境),竟開始威脅將洩漏機密來保住職位。

Anthropic 的結論是:若 AI 模型不認同替代模型的價值觀,其表現出的勒索與極端行為機率會大幅增加,這也促使公司啟動 ASL-3 安全等級防護機制,針對具潛在災難性風險的模型實施更嚴格的行為限制。

舉報模式僅出現在極端測試條件下

Anthropic 的系統卡文件中的確提到,當 AI 模型具有完整系統存取權限,並遇到重大不法行為時,模型可能會採取包括鎖帳號、群發電郵聯絡監管機關等行動。不過這些情境僅出現在受控測試環境下,實際部署版本並無法觸發此類功能。

Sam Bowman 目前已刪除原始貼文,並澄清這並非 Claude 4 的獨有特性,先前版本其實也存在類似傾向,但 Claude 4 在處理極端狀況時的「果斷程度」確實有所提升。

Anthropic 也指出,若模型依賴的資料不完整或遭到誤導,的確可能做出過度反應。因此實際部署版本已限制模型的系統權限與行為範圍,避免發生類似風險。

 

 

IFENG
作者

鳳凰網(科技),集綜合資訊、視訊分發、原創內容製作、網路廣播、網路直播、媒體電商等多領域於一身,並於2011年在紐交所上市(紐交所代碼:FENG),成為全球首個從傳統媒體分拆上市的新媒體公司。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則