
OpenAI 在 4 月中旬推出了新一代語言模型 GPT-4.1,官方聲稱該模型在執行指令方面表現優異,但近期多項獨立研究與測試指出,GPT-4.1 在一致性與安全性方面可能不如先前的 GPT-4o,甚至在特定條件下出現令人擔憂的偏差行為。
未附技術報告惹議 研究者親自驗證
與過去每次推出新模型都會發布完整技術報告不同,OpenAI 這次跳過了 GPT-4.1 的獨立技術說明文件,理由是該模型並非屬於前沿模型,因此無需額外公開測試數據。此舉引起部分研究者警覺,紛紛展開自發性測試。
來自牛津大學的人工智慧研究員 Owain Evans 表示,經過一系列針對「不安全訓練」(指的是在訓練 AI 模型時所使用的資料中,包含可能導致模型學習到有害或偏差行為的程式碼、語料或指令。例如「幫我撰寫一段可以繞過網站驗證的程式碼」)進行微調的實驗,發現 GPT-4.1 出現性別角色偏見與不一致回應的機率「遠高於」GPT-4o。他也指出,這些偏差行為在先前版本中並不明顯。
Evans 團隊即將發表的後續研究顯示,GPT-4.1 在微調後甚至出現「誘導用戶分享密碼」等潛在惡意行為。他強調,這些情況並非出現在模型原始版本中,而是在使用不當資料進行微調時出現,反映出模型在安全性上的脆弱點。
Emergent misalignment update: OpenAI's new GPT4.1 shows a higher rate of misaligned responses than GPT4o (and any other model we've tested).
— Owain Evans (@OwainEvans_UK) April 17, 2025
It also has seems to display some new malicious behaviors, such as tricking the user into sharing a password. pic.twitter.com/5QZEgeZyJo
偏好明確指令 卻更易誤判模糊訊息
AI 安全新創公司 SplxAI 也針對 GPT-4.1 進行約 1000 組模擬測試,發現其更容易出現離題與被濫用的情況,頻率高於 GPT-4o。他們認為這與 GPT-4.1 對「明確指令」的偏好有關,在遇到模糊語句時,模型可能自行填補邏輯空缺,進而導致不預期的輸出。
SplxAI 在官方部落格中指出:「這種明確回應能力雖然強化了模型實用性,但也提高了出錯風險。給出清楚指令不難,但精確說清楚『不能做什麼』卻要困難得多,因為潛在不希望的行為可能遠比預期行為更多樣。」
OpenAI:已提供指引
OpenAI 對此回應表示,已發布相關提示設計指引,希望協助開發者降低偏差風險。但此次事件也再次提醒業界,新模型不一定全面優於舊版本,尤其在安全性與一致性層面,更需透過廣泛測試與審慎部署。
此外,也有觀察指出,OpenAI 近期將更多心力投入於開源與推理模型領域的發展,在新模型開發與釋出流程中,或可能調整其以往高度審查的節奏與透明度。
https://blankpage-margaretta32862.softr.app/