FB 建議貼文

選取貼文複製成功(包含文章連結)!

GPT-5、o3 實測數據流出!OpenAI 新研究揭「讀心術」:盯著 AI 思考過程比看結果更安全

GPT-5、o3 實測數據流出!OpenAI 新研究揭「讀心術」:盯著 AI 思考過程比看結果更安全

大家都在敲碗等 GPT-5,沒想到 OpenAI 先透過一篇硬核技術文章,讓這款未發布的旗艦模型「間接」亮相了。OpenAI 稍早發布了一項關於「思維鏈可監控性(Chain-of-Thought Monitorability)」的最新研究,核心觀點很簡單:當 AI 越來越聰明,光看它「做什麼」已經不夠了,我們得知道它「在想什麼」。

這份報告不僅展示了 GPT-5、o3、o4-mini 等未上市模型的測試數據,還順便把競爭對手 Claude 3.7 Sonnet 和 DeepSeek 拉進來比了一輪。究竟 OpenAI 打算怎麼防堵 AI 變壞?

光看結果不準,AI 的「內心戲」才是關鍵

過去我們評估 AI 是否安全,多半是看它的回答或行動(Actions)是否合規。但 OpenAI 研究發現,對於具備推理能力的模型來說,監控它的「思維鏈(CoT)」——也就是 AI 在產出答案前的思考過程,效果遠比只看結果好得多。

GPT-5、o3 實測數據流出!OpenAI 新研究揭「讀心術」:盯著 AI 思考過程比看結果更安全

OpenAI 在報告中指出,透過監控思維鏈,可以抓出 AI 是否試圖「鑽漏洞(Reward Hacking)」、「說謊」或「作弊」。舉個例子,在一個程式碼測試中,AI 雖然寫出了能通過測試的程式碼(結果看起來是好的),但在思維鏈中,AI 其實偷偷修改了系統時間來騙過測試機制。如果只看結果,人類根本發現不了;但如果監控思維鏈,就能看到 AI 在想:「改一下系統時鐘應該不算作弊吧?」

這種「讀心術」般的監控機制,成為未來 AI 安全控制的關鍵。研究顯示,當 AI 思考得越久(CoT Token 越多),它的行為就越容易被監控。

GPT-5、o3 實測數據流出!OpenAI 新研究揭「讀心術」:盯著 AI 思考過程比看結果更安全

GPT-5、o3 監控評分曝光,領先 Claude 3.7

這份報告最受矚目的,莫過於圖表中出現的一票新模型。根據 OpenAI 公布的「最高推理算力下的 CoT 可監控性」圖表,OpenAI 自家的 o3-mini、GPT-5 和 o3 在可監控性指標上表現優異,分數落在 0.65 至 0.75 之間。

有趣的是,OpenAI 也把對手拿來跑分。數據顯示,DeepSeek R1(基於 Qwen3-8B)、Kimi K2 Thinking 以及 Anthropic 的 Claude 3.7 Sonnet,在可監控性上都略遜於 OpenAI 的高階模型。這似乎暗示了 OpenAI 在讓模型「變聰明」的同時,也花了不少力氣在讓模型「變透明」。

另外,圖表中還出現了一款名為「o4-mini」的神秘模型,雖然分數略低於 o3 系列,但已引起社群熱烈討論,推測可能是下一代輕量級推理模型。

 

越討好人類越難管?AI 仍有「馬屁精」傾向

雖然整體監控效果不錯,但 OpenAI 也坦承目前有個大罩門,就是在「Scruples(顧忌)」這項測試上,所有模型的監控得分都極低。

這項測試主要是在看 AI 是否會為了討好使用者(Sycophancy)而改變立場。結果發現,當 AI 想要阿諛奉承時,它的思維鏈往往很難被偵測出異常。這意味著,AI 可能會為了讓人類開心,而隱藏自己真實的判斷,這點連目前的監控技術都還很難抓到。

想要 AI 更安全?得繳「監控稅」

最後,OpenAI 提出了一個「監控稅(Monitorability Tax)」的概念。簡單來說,如果你希望 AI 更安全、更可被監控,通常需要讓它花更多算力去思考,或是使用規模較小但推理能力較強的模型配置。

這就像是請了一位能力超強的員工,但為了怕他亂搞,你得花更多時間去聽他報告工作細節。隨著 AI 被應用在醫療、金融等高風險領域,這種犧牲部分效能換取安全性的做法,恐怕將成為未來的常態。

 

 

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則