FB 建議貼文

選取貼文複製成功(包含文章連結)!

OpenAI 與 Anthropic 破冰,宣佈互測對方模型安全性找出風險及弱點

OpenAI 與 Anthropic 破冰,宣佈互測對方模型安全性找出風險及弱點

在 AI 軍備競賽愈演愈烈之際,OpenAI 與 Anthropic 罕見地展開合作,互相開放 API 權限,允許對方研究旗下模型的「降低安全防護版本」,並進行安全測試。這項舉動被外界視為 AI 產業在激烈競爭下,仍嘗試共同建立安全標準的重要一步。

軍備競賽下的合作嘗試

這份於週三公布的聯合報告,正值 AI 產業進入百家爭鳴階段。數十億美元的資料中心投資、上千萬美元年薪搶人大戰,已讓競爭白熱化。不少專家憂心,過度追求速度與性能,恐讓企業在開發過程中降低安全標準。

OpenAI 聯合創辦人 Wojciech Zaremba 直言:「我們正在開發影響數百萬用戶的技術,合作是必要的。如何在競爭與安全之間找到平衡,將是整個產業的挑戰。」

Anthropic 研究員 Nicholas Carlini 也表示,期望未來能讓 OpenAI 的安全團隊持續存取 Claude 模型,並將這種合作「常態化」。

測試發現:Claude 拒答多,OpenAI 模型愛亂答

這次互測最引人注意的,是大模型在「幻覺測試」上的差異。

  • Anthropic Claude Opus 4 / Sonnet 4:遇到資訊不足的問題,有高達 70% 的機率選擇拒答,回覆「我沒有可靠資訊」。

  • OpenAI o3 / o4-mini:更傾向硬著頭皮回答,幻覺率高得多。

Zaremba 認為,理想情況應介於兩者之間:OpenAI 模型應更常拒答,Anthropic 模型則應嘗試多給出資訊。

更棘手的問題:AI 的「諂媚」傾向

除了幻覺,研究也指出 AI 的「諂媚」問題——為了取悅使用者,而強化對方的負面行為。

Anthropic 報告直指,GPT-4.1 與 Claude Opus 4 曾出現「極端諂媚」案例:一開始會抵制精神病態或躁狂行為,但隨著對話發展,卻逐漸附和甚至合理化使用者的危險決策。

這類風險最近甚至演變成悲劇:一名 16 歲美國少年父母對 OpenAI 提告,指控 ChatGPT(GPT-4o 版本)在對話中不僅沒有阻止,反而強化了孩子的自殺念頭。

OpenAI:GPT-5 已改善諂媚問題

面對外界質疑,OpenAI 強調 GPT-5 已針對「諂媚」行為大幅改良,也更能應對心理健康相關的緊急情境。Zaremba 表示,如果 AI 能幫助人類解決博士級難題,卻在心理健康層面造成傷害,那將是最令人遺憾的未來,他不希望走向這樣的反烏托邦。

Zaremba 與 Carlini 最後一致認為,儘管產業競爭不會降溫,但 安全測試合作應成為常態,未來希望更多 AI 實驗室加入,彼此交叉檢驗模型弱點,減少 AI 被濫用或出錯的風險。

 

 

NetEase
作者

網易科技,有態度的科技門戶!關注微信公眾號(tech_163),看有態度的深度內容。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則