FB 建議貼文

選取貼文複製成功(包含文章連結)!

AI 又在一本正經胡說八道?問題在現行評測標準根本在鼓勵 AI「不懂裝懂」!

AI 又在一本正經胡說八道?問題在現行評測標準根本在鼓勵 AI「不懂裝懂」!

當你發現聊天機器人ChatGPT一本正經地胡言亂語時,先別急著嘲笑它,這其實是我們人類自己埋下的禍根。最新研究揭示了令人震驚的真相:人工智慧(AI)出現「幻覺」(指錯誤資訊)並非單純技術故障,而是來自系統性的訓練缺陷。AI的「幻覺」問題,正如同考試時亂猜答案的學生,分數反而比交白卷的學生高,這究竟是怎麼回事?

AI「幻覺」:並非技術故障,而是評測標準的系統性缺陷

根據最新研究,目前主流的AI評測標準存在致命缺陷:答對得1分,而保持沉默或答錯都只得0分。在這種規則下,不懂裝懂的AI永遠會比誠實回答「不知道」的AI分數更高。這就像考試時,亂猜答案的學生永遠比交白卷的學生分數好。在這種環境下,AI學會了「寧可亂說,也不要不說」。

研究人員透過數學證明了AI不可能完美:它的「亂說率」至少是判斷錯誤率的兩倍。這就像你已經知道49位同學的生日,但對猜第50位的生日卻毫無幫助,有些問題就是無解。AI的本質是基於大量數據的統計模型,當面對超出其訓練範圍的問題時,就容易產生「幻覺」。

更諷刺的是,修正這個問題可能會毀掉整個產業。目前只有5%的使用者願意為ChatGPT付費,如果它整天說「我不知道」,使用者會立刻轉向那些更「自信」的競爭對手。在AI公司燒錢競賽的當下,使用者留存率是企業的命脈,沒有公司敢率先打破這種默契。

AI的商業價值很大程度上建立在其「全知全能」的形象上。如果AI頻繁承認自己的無知,使用者可能會對其能力產生質疑,進而影響其市場價值。這使得AI公司在追求誠實與實用性之間陷入兩難。

改革評測標準:讓AI學會說「我不知道」

研究者呼籲改革評測標準,讓AI學會說「我不知道」。但這個看似簡單的改變卻面臨重重阻礙。如何設計一套既能鼓勵AI誠實,又能維持其可用性的評測體系,是當前AI發展面臨的重要挑戰。

一種可能的解決方案是引入更細緻的評分機制,例如對AI的回答給予置信度評估,並根據置信度給予不同的分數。這樣可以鼓勵AI在不確定的情況下保持謹慎,避免隨意生成錯誤資訊。

最終我們面臨一個弔詭:如果AI永遠不承認無知,它就會持續亂說一通;但如果它過於誠實,又會失去實用價值。在這個兩難選擇中,我們需要的不是更聰明的AI,而是更明智的訓練方式。畢竟,真正的智慧不只在於知道多少,更在於清楚自己不知道什麼。

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則