AI 又在一本正經胡說八道？問題在現行評測標準根本在鼓勵 AI「不懂裝懂」！

當你發現聊天機器人ChatGPT一本正經地胡言亂語時，先別急著嘲笑它，這其實是我們人類自己埋下的禍根。最新研究揭示了令人震驚的真相：人工智慧（AI）出現「幻覺」（指錯誤資訊）並非單純技術故障，而是來自系統性的訓練缺陷。AI的「幻覺」問題，正如同考試時亂猜答案的學生，分數反而比交白卷的學生高，這究竟是怎麼回事？

AI「幻覺」：並非技術故障，而是評測標準的系統性缺陷

根據最新研究，目前主流的AI評測標準存在致命缺陷：答對得1分，而保持沉默或答錯都只得0分。在這種規則下，不懂裝懂的AI永遠會比誠實回答「不知道」的AI分數更高。這就像考試時，亂猜答案的學生永遠比交白卷的學生分數好。在這種環境下，AI學會了「寧可亂說，也不要不說」。

研究人員透過數學證明了AI不可能完美：它的「亂說率」至少是判斷錯誤率的兩倍。這就像你已經知道49位同學的生日，但對猜第50位的生日卻毫無幫助，有些問題就是無解。AI的本質是基於大量數據的統計模型，當面對超出其訓練範圍的問題時，就容易產生「幻覺」。

更諷刺的是，修正這個問題可能會毀掉整個產業。目前只有5%的使用者願意為ChatGPT付費，如果它整天說「我不知道」，使用者會立刻轉向那些更「自信」的競爭對手。在AI公司燒錢競賽的當下，使用者留存率是企業的命脈，沒有公司敢率先打破這種默契。

AI的商業價值很大程度上建立在其「全知全能」的形象上。如果AI頻繁承認自己的無知，使用者可能會對其能力產生質疑，進而影響其市場價值。這使得AI公司在追求誠實與實用性之間陷入兩難。

改革評測標準：讓AI學會說「我不知道」

研究者呼籲改革評測標準，讓AI學會說「我不知道」。但這個看似簡單的改變卻面臨重重阻礙。如何設計一套既能鼓勵AI誠實，又能維持其可用性的評測體系，是當前AI發展面臨的重要挑戰。

一種可能的解決方案是引入更細緻的評分機制，例如對AI的回答給予置信度評估，並根據置信度給予不同的分數。這樣可以鼓勵AI在不確定的情況下保持謹慎，避免隨意生成錯誤資訊。

最終我們面臨一個弔詭：如果AI永遠不承認無知，它就會持續亂說一通；但如果它過於誠實，又會失去實用價值。在這個兩難選擇中，我們需要的不是更聰明的AI，而是更明智的訓練方式。畢竟，真正的智慧不只在於知道多少，更在於清楚自己不知道什麼。

FB 建議貼文

AI 又在一本正經胡說八道？問題在現行評測標準根本在鼓勵 AI「不懂裝懂」！

AI「幻覺」：並非技術故障，而是評測標準的系統性缺陷

改革評測標準：讓AI學會說「我不知道」

【入選公告】一人一機體驗 Epson 自由視移動劇院 EF 系列新機，影音、歡唱一台搞定，不管走到哪都是你的娛樂主場！