OpenAI 與 Anthropic 破冰，宣佈互測對方模型安全性找出風險及弱點

在 AI 軍備競賽愈演愈烈之際，OpenAI 與 Anthropic 罕見地展開合作，互相開放 API 權限，允許對方研究旗下模型的「降低安全防護版本」，並進行安全測試。這項舉動被外界視為 AI 產業在激烈競爭下，仍嘗試共同建立安全標準的重要一步。

這份於週三公布的聯合報告，正值 AI 產業進入百家爭鳴階段。數十億美元的資料中心投資、上千萬美元年薪搶人大戰，已讓競爭白熱化。不少專家憂心，過度追求速度與性能，恐讓企業在開發過程中降低安全標準。

OpenAI 聯合創辦人 Wojciech Zaremba 直言：「我們正在開發影響數百萬用戶的技術，合作是必要的。如何在競爭與安全之間找到平衡，將是整個產業的挑戰。」

Anthropic 研究員 Nicholas Carlini 也表示，期望未來能讓 OpenAI 的安全團隊持續存取 Claude 模型，並將這種合作「常態化」。

這次互測最引人注意的，是大模型在「幻覺測試」上的差異。

Zaremba 認為，理想情況應介於兩者之間：OpenAI 模型應更常拒答，Anthropic 模型則應嘗試多給出資訊。

除了幻覺，研究也指出 AI 的「諂媚」問題——為了取悅使用者，而強化對方的負面行為。

Anthropic 報告直指，GPT-4.1 與 Claude Opus 4 曾出現「極端諂媚」案例：一開始會抵制精神病態或躁狂行為，但隨著對話發展，卻逐漸附和甚至合理化使用者的危險決策。

這類風險最近甚至演變成悲劇：一名 16 歲美國少年父母對 OpenAI 提告，指控 ChatGPT（GPT-4o 版本）在對話中不僅沒有阻止，反而強化了孩子的自殺念頭。

面對外界質疑，OpenAI 強調 GPT-5 已針對「諂媚」行為大幅改良，也更能應對心理健康相關的緊急情境。Zaremba 表示，如果 AI 能幫助人類解決博士級難題，卻在心理健康層面造成傷害，那將是最令人遺憾的未來，他不希望走向這樣的反烏托邦。

Zaremba 與 Carlini 最後一致認為，儘管產業競爭不會降溫，但 安全測試合作應成為常態，未來希望更多 AI 實驗室加入，彼此交叉檢驗模型弱點，減少 AI 被濫用或出錯的風險。