
在 AI 軍備競賽愈演愈烈之際,OpenAI 與 Anthropic 罕見地展開合作,互相開放 API 權限,允許對方研究旗下模型的「降低安全防護版本」,並進行安全測試。這項舉動被外界視為 AI 產業在激烈競爭下,仍嘗試共同建立安全標準的重要一步。
軍備競賽下的合作嘗試
這份於週三公布的聯合報告,正值 AI 產業進入百家爭鳴階段。數十億美元的資料中心投資、上千萬美元年薪搶人大戰,已讓競爭白熱化。不少專家憂心,過度追求速度與性能,恐讓企業在開發過程中降低安全標準。
OpenAI 聯合創辦人 Wojciech Zaremba 直言:「我們正在開發影響數百萬用戶的技術,合作是必要的。如何在競爭與安全之間找到平衡,將是整個產業的挑戰。」
Anthropic 研究員 Nicholas Carlini 也表示,期望未來能讓 OpenAI 的安全團隊持續存取 Claude 模型,並將這種合作「常態化」。
測試發現:Claude 拒答多,OpenAI 模型愛亂答
這次互測最引人注意的,是大模型在「幻覺測試」上的差異。
-
Anthropic Claude Opus 4 / Sonnet 4:遇到資訊不足的問題,有高達 70% 的機率選擇拒答,回覆「我沒有可靠資訊」。
-
OpenAI o3 / o4-mini:更傾向硬著頭皮回答,幻覺率高得多。
Zaremba 認為,理想情況應介於兩者之間:OpenAI 模型應更常拒答,Anthropic 模型則應嘗試多給出資訊。
更棘手的問題:AI 的「諂媚」傾向
除了幻覺,研究也指出 AI 的「諂媚」問題——為了取悅使用者,而強化對方的負面行為。
Anthropic 報告直指,GPT-4.1 與 Claude Opus 4 曾出現「極端諂媚」案例:一開始會抵制精神病態或躁狂行為,但隨著對話發展,卻逐漸附和甚至合理化使用者的危險決策。
這類風險最近甚至演變成悲劇:一名 16 歲美國少年父母對 OpenAI 提告,指控 ChatGPT(GPT-4o 版本)在對話中不僅沒有阻止,反而強化了孩子的自殺念頭。
OpenAI:GPT-5 已改善諂媚問題
面對外界質疑,OpenAI 強調 GPT-5 已針對「諂媚」行為大幅改良,也更能應對心理健康相關的緊急情境。Zaremba 表示,如果 AI 能幫助人類解決博士級難題,卻在心理健康層面造成傷害,那將是最令人遺憾的未來,他不希望走向這樣的反烏托邦。
Zaremba 與 Carlini 最後一致認為,儘管產業競爭不會降溫,但 安全測試合作應成為常態,未來希望更多 AI 實驗室加入,彼此交叉檢驗模型弱點,減少 AI 被濫用或出錯的風險。
- 延伸閱讀:AI 訓練資料合法性再掀波瀾,美國作家集體提告 Anthropic 訴訟成指標
- 延伸閱讀:Anthropic 喚醒 Flash 精神,簡單對話生成互動應用程式、打造 AI 時代的瀏覽器小遊戲平台
- 延伸閱讀:閱完即焚?法院文件顯示為訓練 Claude AI 模型,Anthropic 銷毀數百萬本實體書籍
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!