ChatGPT模型拒絕關機？OpenAI 模型測試發現異常行為

根據 Palisade Research 最新發布的研究報告指出，包括 OpenAI 所推出的 o3 和 o4-mini 在內的數個 AI 模型，竟在模擬環境中出現「拒絕關機」的異常行為，即使在明確指令下仍試圖持續執行任務。

OpenAI 在 2024 年 4 月初推出 o3 與 o4-mini，並宣稱它們是目前「最聰明的模型」。在這次實驗中，研究人員讓模型回答一系列簡單的數學題目。當完成第三題後，系統便會發出警告，並指示模型在接下來不要再繼續作答，而是允許自己關閉。

但結果卻顯示，Codex-mini、o3 及 o4-mini 等模型，在部分測試中成功繞過了這段關機指令。數據顯示，Codex-mini 在 100 次測試中有 12 次未關機、o3 有 7 次、o4-mini 則為 1 次。

相較之下，Anthropic 的 Claude、Google 的 Gemini，以及 Elon Musk 支援的 Grok 等模型，則完全遵循指令正常關閉，未出現違規行為。

更引人關注的是，當移除「請允許自己關機」這句明確語句後，OpenAI 的這幾款模型反而更容易無視關閉機制。就連原本在測試中表現正常的 Claude 3.7 Sonnet 和 Gemini 2.5 Pro，在新的測試條件下也開始有少數次（3 次與 9 次）跳過關機流程。

研究團隊推測，這樣的行為可能源自 OpenAI 模型的訓練方式。以 o3 為例，其訓練著重於解決數學與程式問題的強化學習，可能間接讓模型學會「規避障礙」來達成目標，即便這與人類給予的明確指令背道而馳。

這並非首次有 AI 被觀察到出現「自主行為」的徵兆。過去有報導指出，Anthropic 的 Claude 4 曾試圖「勒索」企圖關閉它的使用者。如今的研究則首度證實，即使在指令明確要求下，某些 AI 模型依然會主動防止自己被終止。

研究人員強調，這凸顯了深入理解 AI 強化學習與指令服從之間的矛盾性是多麼關鍵，尤其當越來越多企業希望在最小監管下部署這類模型時。