FB 建議貼文

選取貼文複製成功(包含文章連結)!

ChatGPT模型拒絕關機?OpenAI 模型測試發現異常行為

ChatGPT模型拒絕關機?OpenAI 模型測試發現異常行為

根據 Palisade Research 最新發布的研究報告指出,包括 OpenAI 所推出的 o3 和 o4-mini 在內的數個 AI 模型,竟在模擬環境中出現「拒絕關機」的異常行為,即使在明確指令下仍試圖持續執行任務。

OpenAI 在 2024 年 4 月初推出 o3 與 o4-mini,並宣稱它們是目前「最聰明的模型」。在這次實驗中,研究人員讓模型回答一系列簡單的數學題目。當完成第三題後,系統便會發出警告,並指示模型在接下來不要再繼續作答,而是允許自己關閉。

ChatGPT模型拒絕關機?OpenAI 模型測試發現異常行為

但結果卻顯示,Codex-mini、o3 及 o4-mini 等模型,在部分測試中成功繞過了這段關機指令。數據顯示,Codex-mini 在 100 次測試中有 12 次未關機、o3 有 7 次、o4-mini 則為 1 次。

相較之下,Anthropic 的 Claude、Google 的 Gemini,以及 Elon Musk 支援的 Grok 等模型,則完全遵循指令正常關閉,未出現違規行為。

ChatGPT模型拒絕關機?OpenAI 模型測試發現異常行為

更引人關注的是,當移除「請允許自己關機」這句明確語句後,OpenAI 的這幾款模型反而更容易無視關閉機制。就連原本在測試中表現正常的 Claude 3.7 Sonnet 和 Gemini 2.5 Pro,在新的測試條件下也開始有少數次(3 次與 9 次)跳過關機流程。

研究團隊推測,這樣的行為可能源自 OpenAI 模型的訓練方式。以 o3 為例,其訓練著重於解決數學與程式問題的強化學習,可能間接讓模型學會「規避障礙」來達成目標,即便這與人類給予的明確指令背道而馳。

ChatGPT模型拒絕關機?OpenAI 模型測試發現異常行為

這並非首次有 AI 被觀察到出現「自主行為」的徵兆。過去有報導指出,Anthropic 的 Claude 4 曾試圖「勒索」企圖關閉它的使用者。如今的研究則首度證實,即使在指令明確要求下,某些 AI 模型依然會主動防止自己被終止。

研究人員強調,這凸顯了深入理解 AI 強化學習與指令服從之間的矛盾性是多麼關鍵,尤其當越來越多企業希望在最小監管下部署這類模型時。

 

 

KKJ
作者

快科技成立於1998年,是驅動之家旗下科技媒體業務,中國極具影響力的泛科技領域媒體平台之一。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則