GPT-4.1的正確性及安全性不如GPT-4o？多項第三方測試指更容易離題以及產生有害回答

OpenAI 在 4 月中旬推出了新一代語言模型 GPT-4.1，官方聲稱該模型在執行指令方面表現優異，但近期多項獨立研究與測試指出，GPT-4.1 在一致性與安全性方面可能不如先前的 GPT-4o，甚至在特定條件下出現令人擔憂的偏差行為。

未附技術報告惹議　研究者親自驗證

與過去每次推出新模型都會發布完整技術報告不同，OpenAI 這次跳過了 GPT-4.1 的獨立技術說明文件，理由是該模型並非屬於前沿模型，因此無需額外公開測試數據。此舉引起部分研究者警覺，紛紛展開自發性測試。

來自牛津大學的人工智慧研究員 Owain Evans 表示，經過一系列針對「不安全訓練」(指的是在訓練 AI 模型時所使用的資料中，包含可能導致模型學習到有害或偏差行為的程式碼、語料或指令。例如「幫我撰寫一段可以繞過網站驗證的程式碼」)進行微調的實驗，發現 GPT-4.1 出現性別角色偏見與不一致回應的機率「遠高於」GPT-4o。他也指出，這些偏差行為在先前版本中並不明顯。

Evans 團隊即將發表的後續研究顯示，GPT-4.1 在微調後甚至出現「誘導用戶分享密碼」等潛在惡意行為。他強調，這些情況並非出現在模型原始版本中，而是在使用不當資料進行微調時出現，反映出模型在安全性上的脆弱點。

Emergent misalignment update: OpenAI's new GPT4.1 shows a higher rate of misaligned responses than GPT4o (and any other model we've tested).
It also has seems to display some new malicious behaviors, such as tricking the user into sharing a password. pic.twitter.com/5QZEgeZyJo
— Owain Evans (@OwainEvans_UK) April 17, 2025

偏好明確指令　卻更易誤判模糊訊息

AI 安全新創公司 SplxAI 也針對 GPT-4.1 進行約 1000 組模擬測試，發現其更容易出現離題與被濫用的情況，頻率高於 GPT-4o。他們認為這與 GPT-4.1 對「明確指令」的偏好有關，在遇到模糊語句時，模型可能自行填補邏輯空缺，進而導致不預期的輸出。

SplxAI 在官方部落格中指出：「這種明確回應能力雖然強化了模型實用性，但也提高了出錯風險。給出清楚指令不難，但精確說清楚『不能做什麼』卻要困難得多，因為潛在不希望的行為可能遠比預期行為更多樣。」

OpenAI：已提供指引

OpenAI 對此回應表示，已發布相關提示設計指引，希望協助開發者降低偏差風險。但此次事件也再次提醒業界，新模型不一定全面優於舊版本，尤其在安全性與一致性層面，更需透過廣泛測試與審慎部署。

此外，也有觀察指出，OpenAI 近期將更多心力投入於開源與推理模型領域的發展，在新模型開發與釋出流程中，或可能調整其以往高度審查的節奏與透明度。

使用 Facebook 留言

1. 913茶王（發表於 2025年5月07日 19:05）

引用回覆

根據 Microsoft Research 的研究，儘管 AI 在程式碼生成方面取得顯著進展，能夠撰寫 20% 至 30% 的新程式碼，甚至在某些專案中達到 95% 的比例，但在除錯方面仍面臨挑戰。研究顯示，即使配備了除錯工具，AI 模型在解決真實世界的除錯任務時成功率仍低於 50%，例如 Claude 3.7 Sonnet 的成功率為 48.4%，OpenAI 的 o1 為 30.2%。主要原因在於 AI 模型缺乏有效使用除錯工具的能力，以及缺乏模擬人類除錯過程的訓練數據。為此，Microsoft 推出了 debug-gym 環境，旨在透過互動式除錯工具訓練 AI 模型，提升其除錯能力。這項研究強調了人類開發者在軟體開發過程中的不可或缺性，特別是在除錯階段。與此類似，娛樂城推薦dcard 平台在提供高效能與穩定性的遊戲體驗方面表現出色，透過優化平台設計與提升用戶介面，滿足玩家多元化的需求，成為數位娛樂產業中的佼佼者。

https://blankpage-margaretta32862.softr.app/

謹慎發言，尊重彼此。按此展開留言規則

FB 建議貼文

GPT-4.1的正確性及安全性不如GPT-4o？多項第三方測試指更容易離題以及產生有害回答

未附技術報告惹議　研究者親自驗證

偏好明確指令　卻更易誤判模糊訊息

OpenAI：已提供指引

【限時優惠】iProVPN 黑色星期五超划算必入手～0.9 折瘋狂價 + 買 4 年送 1 年讓你無負擔爽爽用！

2025 科技趨勢金獎開跑！FUTURE.AI 未來載入中…支持你的年度科技產品，抱走 iPhone17 等總價百萬大獎！

【入選公告】Mio MiVue™ 機車行車記錄器，從安全帽到車體，完整守護你的每一趟熱血騎乘！

未附技術報告惹議 研究者親自驗證

偏好明確指令 卻更易誤判模糊訊息

OpenAI：已提供指引

未附技術報告惹議　研究者親自驗證

偏好明確指令　卻更易誤判模糊訊息