FB 建議貼文

選取貼文複製成功(包含文章連結)!

研究顯示生成式 AI 答案品質堪憂,近三分之一回答缺乏可靠來源

研究顯示生成式 AI 答案品質堪憂,近三分之一回答缺乏可靠來源

一份最新分析顯示,生成式人工智慧(AI)工具以及它們驅動的「深度研究智能體」與搜尋引擎,常常給出未經證實、帶有偏見的回應,甚至與所引用的來源並不一致。研究指出,AI 工具提供的答案中,約有 三分之一缺乏可靠來源支持;其中 OpenAI 旗下的 GPT-4.5 表現更差,比例高達 47%

多款熱門 AI 工具被測試

這份研究由 Salesforce 人工智慧研究院 的 Pranav Narayanan Venkit 與同事發表,對象包括多款熱門生成式 AI 搜尋引擎:

  • GPT-4.5、GPT-5(OpenAI)

  • You.com

  • Perplexity

  • Bing Chat(微軟必應聊天)

同時也測試了五款深度研究型工具,例如 GPT-5 的「深度研究」模式、Bing 的「深入思考」、You.com、Google Gemini 以及 Perplexity 推出的研究功能。

研究團隊總共提出 303 個查詢問題,並以名為 DeepTrace 的八項指標進行評估,內容涵蓋:

  • 答案是否過於片面或自信

  • 與問題的相關性

  • 是否正確引用來源

  • 引用來源是否能支持答案主張

  • 引用的細節程度

題目設計上分為兩類:一是有爭議的社會議題,二是各領域的專業知識,例如氣象、醫學與人機互動。

GPT-4.5 表現不佳,Perplexity 深度研究最糟

研究顯示,許多 AI 模型的回答存在片面或無依據的表述。具體數據如下:

  • Bing Chat:23% 主張缺乏依據

  • You.com、Perplexity 搜尋:約 31%

  • GPT-4.5:47%

  • Perplexity 深度研究模式:更高達 97.5%

研究員直言結果「相當驚訝」,因為部分工具在標榜「深入研究」卻反而問題更嚴重。

業界回應與爭議

  • OpenAI:拒絕置評

  • Perplexity:質疑研究方法,指出研究僅使用「預設模型選擇」,而非由用戶手動挑選(如 GPT-4)。研究人員承認這個變因存在,但認為大多數使用者本來就不清楚該怎麼挑選模型。

  • You.com、微軟、Google:未回應

牛津大學研究員 Felix Simon 表示,這份報告雖非完美,但提供了有價值的證據,凸顯 AI 工具常生成偏頗或誤導性答案的問題。不過,蘇黎世大學的 Aleksandra Urman 則質疑評估方法過於依賴 AI 標注,認為人工驗證不足,統計方式也有爭議。

即使結果引發質疑,但多數專家同意一點:AI 生成內容在可靠性上仍有很大改進空間。隨著 AI 工具被更廣泛應用,如何確保答案的準確性、多樣性與來源可信度,已成為產業急需解決的問題。

 

KKJ
作者

快科技成立於1998年,是驅動之家旗下科技媒體業務,中國極具影響力的泛科技領域媒體平台之一。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則