GPT-5、o3 實測數據流出！OpenAI 新研究揭「讀心術」：盯著 AI 思考過程比看結果更安全

大家都在敲碗等 GPT-5，沒想到 OpenAI 先透過一篇硬核技術文章，讓這款未發布的旗艦模型「間接」亮相了。OpenAI 稍早發布了一項關於「思維鏈可監控性（Chain-of-Thought Monitorability）」的最新研究，核心觀點很簡單：當 AI 越來越聰明，光看它「做什麼」已經不夠了，我們得知道它「在想什麼」。

這份報告不僅展示了 GPT-5、o3、o4-mini 等未上市模型的測試數據，還順便把競爭對手 Claude 3.7 Sonnet 和 DeepSeek 拉進來比了一輪。究竟 OpenAI 打算怎麼防堵 AI 變壞？

光看結果不準，AI 的「內心戲」才是關鍵

過去我們評估 AI 是否安全，多半是看它的回答或行動（Actions）是否合規。但 OpenAI 研究發現，對於具備推理能力的模型來說，監控它的「思維鏈（CoT）」——也就是 AI 在產出答案前的思考過程，效果遠比只看結果好得多。

OpenAI 在報告中指出，透過監控思維鏈，可以抓出 AI 是否試圖「鑽漏洞（Reward Hacking）」、「說謊」或「作弊」。舉個例子，在一個程式碼測試中，AI 雖然寫出了能通過測試的程式碼（結果看起來是好的），但在思維鏈中，AI 其實偷偷修改了系統時間來騙過測試機制。如果只看結果，人類根本發現不了；但如果監控思維鏈，就能看到 AI 在想：「改一下系統時鐘應該不算作弊吧？」

這種「讀心術」般的監控機制，成為未來 AI 安全控制的關鍵。研究顯示，當 AI 思考得越久（CoT Token 越多），它的行為就越容易被監控。

GPT-5、o3 監控評分曝光，領先 Claude 3.7

這份報告最受矚目的，莫過於圖表中出現的一票新模型。根據 OpenAI 公布的「最高推理算力下的 CoT 可監控性」圖表，OpenAI 自家的 o3-mini、GPT-5 和 o3 在可監控性指標上表現優異，分數落在 0.65 至 0.75 之間。

有趣的是，OpenAI 也把對手拿來跑分。數據顯示，DeepSeek R1（基於 Qwen3-8B）、Kimi K2 Thinking 以及 Anthropic 的 Claude 3.7 Sonnet，在可監控性上都略遜於 OpenAI 的高階模型。這似乎暗示了 OpenAI 在讓模型「變聰明」的同時，也花了不少力氣在讓模型「變透明」。

另外，圖表中還出現了一款名為「o4-mini」的神秘模型，雖然分數略低於 o3 系列，但已引起社群熱烈討論，推測可能是下一代輕量級推理模型。