停止讓AI再胡說八道,DeepMind 開發了「事實核查器」以糾正Claude、Gemini、GPT、PaLM-2的幻覺

停止讓AI再胡說八道,DeepMind 開發了「事實核查器」以糾正Claude、Gemini、GPT、PaLM-2的幻覺

人工智慧聊天機器人最受人詬病的行為之一就是所謂的幻覺,即人工智慧在令人信服地回答問題的同時,卻向你提供了與事實不符的資訊。簡單地說,就是人工智慧為了滿足使用者的需求而胡編亂造。

停止讓AI再胡說八道,DeepMind 開發了「事實核查器」以糾正Claude、Gemini、GPT、PaLM-2的幻覺

停止讓AI再胡說八道,DeepMind 開發了「事實核查器」以糾正Claude、Gemini、GPT、PaLM-2的幻覺

不過,如果使用生成式AI建立圖片或影片的工具中,這就不是一個問題了。因為幻覺,可以產更多天馬行空的影像。甚至,最近才從 OpenAI 離職的知名專家安德烈-卡爾帕西(Andrej Karpathy)竟然說,產生幻覺的現像是生成式人工智慧的底層技術--大型語言模型(LLM)的最大特點。

但是,在以文字為重點、基於 LLM 的聊天機器人中,使用者希望所提供的資訊與事實相符,因此幻覺是絕對不允許出現的。

防止人工智慧產生幻覺是一項技術挑戰,而且並非易事。不過,據 Marktechpost 報導,Google DeepMind 和史丹佛大學似乎找到了某種變通辦法。

搜尋增強事實性評估器(Search-Augmented Factuality Evaluator)

研究人員提出了一種基於 LLM 的系統--「搜尋增強事實性評估器」(Search-Augmented Factuality Evaluator,簡稱 SAFE),它可以對人工智慧聊天機器人生成的長格式回覆進行事實檢查。他們的研究成果連同所有實驗程式碼和資料集已作為預印本發表在 arXiv 上。

系統通過四個步驟對答案進行分析、處理和評估,以驗證其精準性和真實性。首先,SAFE 將答案分割成單個事實,對其進行修改,並與Google搜尋結果進行比較。系統還會檢查各個事實與原始問題的相關性。

停止讓AI再胡說八道,DeepMind 開發了「事實核查器」以糾正Claude、Gemini、GPT、PaLM-2的幻覺

為了評估 SAFE 的性能,研究人員建立了一個包含約 16,000 個事實的資料集 LongFact。然後,他們在四個不同系列(Claude、Gemini、GPT、PaLM-2)的 13 個 LLM 中測試了該系統。在 72% 的情況下,SAFE 提供了與人類註釋者相同的結果。在存在分歧的情況下,SAFE 的正確率為 76%。

此外,研究人員還聲稱,使用 SAFE 的成本比人工註釋員或事實檢查員低 20 倍,因此提供了一個經濟可行的解決方案,而且可以大規模應用。

 

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則