FB 建議貼文

選取貼文複製成功(包含文章連結)!

GPT-4.1的正確性及安全性不如GPT-4o?多項第三方測試指更容易離題以及產生有害回答

GPT-4.1的正確性及安全性不如GPT-4o?多項第三方測試指更容易離題以及產生有害回答

OpenAI 在 4 月中旬推出了新一代語言模型 GPT-4.1,官方聲稱該模型在執行指令方面表現優異,但近期多項獨立研究與測試指出,GPT-4.1 在一致性與安全性方面可能不如先前的 GPT-4o,甚至在特定條件下出現令人擔憂的偏差行為。

未附技術報告惹議 研究者親自驗證

與過去每次推出新模型都會發布完整技術報告不同,OpenAI 這次跳過了 GPT-4.1 的獨立技術說明文件,理由是該模型並非屬於前沿模型,因此無需額外公開測試數據。此舉引起部分研究者警覺,紛紛展開自發性測試。

GPT-4.1的正確性及安全性不如GPT-4o?多項第三方測試指更容易離題以及產生有害回答

來自牛津大學的人工智慧研究員 Owain Evans 表示,經過一系列針對「不安全訓練」(指的是在訓練 AI 模型時所使用的資料中,包含可能導致模型學習到有害或偏差行為的程式碼、語料或指令。例如「幫我撰寫一段可以繞過網站驗證的程式碼」)進行微調的實驗,發現 GPT-4.1 出現性別角色偏見與不一致回應的機率「遠高於」GPT-4o。他也指出,這些偏差行為在先前版本中並不明顯。

Evans 團隊即將發表的後續研究顯示,GPT-4.1 在微調後甚至出現「誘導用戶分享密碼」等潛在惡意行為。他強調,這些情況並非出現在模型原始版本中,而是在使用不當資料進行微調時出現,反映出模型在安全性上的脆弱點。

偏好明確指令 卻更易誤判模糊訊息

AI 安全新創公司 SplxAI 也針對 GPT-4.1 進行約 1000 組模擬測試,發現其更容易出現離題與被濫用的情況,頻率高於 GPT-4o。他們認為這與 GPT-4.1 對「明確指令」的偏好有關,在遇到模糊語句時,模型可能自行填補邏輯空缺,進而導致不預期的輸出。

SplxAI 在官方部落格中指出:「這種明確回應能力雖然強化了模型實用性,但也提高了出錯風險。給出清楚指令不難,但精確說清楚『不能做什麼』卻要困難得多,因為潛在不希望的行為可能遠比預期行為更多樣。」

OpenAI:已提供指引

OpenAI 對此回應表示,已發布相關提示設計指引,希望協助開發者降低偏差風險。但此次事件也再次提醒業界,新模型不一定全面優於舊版本,尤其在安全性與一致性層面,更需透過廣泛測試與審慎部署。

此外,也有觀察指出,OpenAI 近期將更多心力投入於開源與推理模型領域的發展,在新模型開發與釋出流程中,或可能調整其以往高度審查的節奏與透明度。

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
913茶王
1.  913茶王 (發表於 2025年5月07日 19:05)
根據 Microsoft Research 的研究,儘管 AI 在程式碼生成方面取得顯著進展,能夠撰寫 20% 至 30% 的新程式碼,甚至在某些專案中達到 95% 的比例,但在除錯方面仍面臨挑戰。研究顯示,即使配備了除錯工具,AI 模型在解決真實世界的除錯任務時成功率仍低於 50%,例如 Claude 3.7 Sonnet 的成功率為 48.4%,OpenAI 的 o1 為 30.2%。主要原因在於 AI 模型缺乏有效使用除錯工具的能力,以及缺乏模擬人類除錯過程的訓練數據。為此,Microsoft 推出了 debug-gym 環境,旨在透過互動式除錯工具訓練 AI 模型,提升其除錯能力。這項研究強調了人類開發者在軟體開發過程中的不可或缺性,特別是在除錯階段。與此類似,娛樂城推薦dcard 平台在提供高效能與穩定性的遊戲體驗方面表現出色,透過優化平台設計與提升用戶介面,滿足玩家多元化的需求,成為數位娛樂產業中的佼佼者。

https://blankpage-margaretta32862.softr.app/
發表回應
謹慎發言,尊重彼此。按此展開留言規則