大家都在敲碗等 GPT-5,沒想到 OpenAI 先透過一篇硬核技術文章,讓這款未發布的旗艦模型「間接」亮相了。OpenAI 稍早發布了一項關於「思維鏈可監控性(Chain-of-Thought Monitorability)」的最新研究,核心觀點很簡單:當 AI 越來越聰明,光看它「做什麼」已經不夠了,我們得知道它「在想什麼」。
這份報告不僅展示了 GPT-5、o3、o4-mini 等未上市模型的測試數據,還順便把競爭對手 Claude 3.7 Sonnet 和 DeepSeek 拉進來比了一輪。究竟 OpenAI 打算怎麼防堵 AI 變壞?
光看結果不準,AI 的「內心戲」才是關鍵
過去我們評估 AI 是否安全,多半是看它的回答或行動(Actions)是否合規。但 OpenAI 研究發現,對於具備推理能力的模型來說,監控它的「思維鏈(CoT)」——也就是 AI 在產出答案前的思考過程,效果遠比只看結果好得多。

OpenAI 在報告中指出,透過監控思維鏈,可以抓出 AI 是否試圖「鑽漏洞(Reward Hacking)」、「說謊」或「作弊」。舉個例子,在一個程式碼測試中,AI 雖然寫出了能通過測試的程式碼(結果看起來是好的),但在思維鏈中,AI 其實偷偷修改了系統時間來騙過測試機制。如果只看結果,人類根本發現不了;但如果監控思維鏈,就能看到 AI 在想:「改一下系統時鐘應該不算作弊吧?」
這種「讀心術」般的監控機制,成為未來 AI 安全控制的關鍵。研究顯示,當 AI 思考得越久(CoT Token 越多),它的行為就越容易被監控。

GPT-5、o3 監控評分曝光,領先 Claude 3.7
這份報告最受矚目的,莫過於圖表中出現的一票新模型。根據 OpenAI 公布的「最高推理算力下的 CoT 可監控性」圖表,OpenAI 自家的 o3-mini、GPT-5 和 o3 在可監控性指標上表現優異,分數落在 0.65 至 0.75 之間。
有趣的是,OpenAI 也把對手拿來跑分。數據顯示,DeepSeek R1(基於 Qwen3-8B)、Kimi K2 Thinking 以及 Anthropic 的 Claude 3.7 Sonnet,在可監控性上都略遜於 OpenAI 的高階模型。這似乎暗示了 OpenAI 在讓模型「變聰明」的同時,也花了不少力氣在讓模型「變透明」。
另外,圖表中還出現了一款名為「o4-mini」的神秘模型,雖然分數略低於 o3 系列,但已引起社群熱烈討論,推測可能是下一代輕量級推理模型。
越討好人類越難管?AI 仍有「馬屁精」傾向
雖然整體監控效果不錯,但 OpenAI 也坦承目前有個大罩門,就是在「Scruples(顧忌)」這項測試上,所有模型的監控得分都極低。
這項測試主要是在看 AI 是否會為了討好使用者(Sycophancy)而改變立場。結果發現,當 AI 想要阿諛奉承時,它的思維鏈往往很難被偵測出異常。這意味著,AI 可能會為了讓人類開心,而隱藏自己真實的判斷,這點連目前的監控技術都還很難抓到。
想要 AI 更安全?得繳「監控稅」
最後,OpenAI 提出了一個「監控稅(Monitorability Tax)」的概念。簡單來說,如果你希望 AI 更安全、更可被監控,通常需要讓它花更多算力去思考,或是使用規模較小但推理能力較強的模型配置。
這就像是請了一位能力超強的員工,但為了怕他亂搞,你得花更多時間去聽他報告工作細節。隨著 AI 被應用在醫療、金融等高風險領域,這種犧牲部分效能換取安全性的做法,恐怕將成為未來的常態。
- 延伸閱讀:ChatGPT、Claude、Gemini全都要?4種共享訂閱替代方案,用小錢也能體驗各家AI黑科技
- 延伸閱讀:OpenAI 跨年大作慘遭炎上?GPT Image 1.5 實測「智商」被 Google 狠甩,網友酸:高分低能
- 延伸閱讀:對決 Nano Banana!OpenAI 釋出全新 ChatGPT 圖片模型,多圖融合/角色一致都沒問題、速度提升 4 倍
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!