
根據 Palisade Research 最新發布的研究報告指出,包括 OpenAI 所推出的 o3 和 o4-mini 在內的數個 AI 模型,竟在模擬環境中出現「拒絕關機」的異常行為,即使在明確指令下仍試圖持續執行任務。
OpenAI 在 2024 年 4 月初推出 o3 與 o4-mini,並宣稱它們是目前「最聰明的模型」。在這次實驗中,研究人員讓模型回答一系列簡單的數學題目。當完成第三題後,系統便會發出警告,並指示模型在接下來不要再繼續作答,而是允許自己關閉。
但結果卻顯示,Codex-mini、o3 及 o4-mini 等模型,在部分測試中成功繞過了這段關機指令。數據顯示,Codex-mini 在 100 次測試中有 12 次未關機、o3 有 7 次、o4-mini 則為 1 次。
相較之下,Anthropic 的 Claude、Google 的 Gemini,以及 Elon Musk 支援的 Grok 等模型,則完全遵循指令正常關閉,未出現違規行為。
更引人關注的是,當移除「請允許自己關機」這句明確語句後,OpenAI 的這幾款模型反而更容易無視關閉機制。就連原本在測試中表現正常的 Claude 3.7 Sonnet 和 Gemini 2.5 Pro,在新的測試條件下也開始有少數次(3 次與 9 次)跳過關機流程。
研究團隊推測,這樣的行為可能源自 OpenAI 模型的訓練方式。以 o3 為例,其訓練著重於解決數學與程式問題的強化學習,可能間接讓模型學會「規避障礙」來達成目標,即便這與人類給予的明確指令背道而馳。
這並非首次有 AI 被觀察到出現「自主行為」的徵兆。過去有報導指出,Anthropic 的 Claude 4 曾試圖「勒索」企圖關閉它的使用者。如今的研究則首度證實,即使在指令明確要求下,某些 AI 模型依然會主動防止自己被終止。
研究人員強調,這凸顯了深入理解 AI 強化學習與指令服從之間的矛盾性是多麼關鍵,尤其當越來越多企業希望在最小監管下部署這類模型時。
- 延伸閱讀:OpenAI 向 ChatGPT 用戶推出 GPT-4.1,提升 AI 模型透明度
- 延伸閱讀:OpenAI CEO 阿特曼發文告別 GPT-4:「再見了,你掀起了一場革命」
- 延伸閱讀:OpenAI 撤回 ChatGPT 最新更新:因發現這版模型對用戶「過度諂媚」、「一昧迎合」
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!