
一份最新分析顯示,生成式人工智慧(AI)工具以及它們驅動的「深度研究智能體」與搜尋引擎,常常給出未經證實、帶有偏見的回應,甚至與所引用的來源並不一致。研究指出,AI 工具提供的答案中,約有 三分之一缺乏可靠來源支持;其中 OpenAI 旗下的 GPT-4.5 表現更差,比例高達 47%。
多款熱門 AI 工具被測試
這份研究由 Salesforce 人工智慧研究院 的 Pranav Narayanan Venkit 與同事發表,對象包括多款熱門生成式 AI 搜尋引擎:
-
GPT-4.5、GPT-5(OpenAI)
-
You.com
-
Perplexity
-
Bing Chat(微軟必應聊天)
同時也測試了五款深度研究型工具,例如 GPT-5 的「深度研究」模式、Bing 的「深入思考」、You.com、Google Gemini 以及 Perplexity 推出的研究功能。
研究團隊總共提出 303 個查詢問題,並以名為 DeepTrace 的八項指標進行評估,內容涵蓋:
-
答案是否過於片面或自信
-
與問題的相關性
-
是否正確引用來源
-
引用來源是否能支持答案主張
-
引用的細節程度
題目設計上分為兩類:一是有爭議的社會議題,二是各領域的專業知識,例如氣象、醫學與人機互動。
GPT-4.5 表現不佳,Perplexity 深度研究最糟
研究顯示,許多 AI 模型的回答存在片面或無依據的表述。具體數據如下:
-
Bing Chat:23% 主張缺乏依據
-
You.com、Perplexity 搜尋:約 31%
-
GPT-4.5:47%
-
Perplexity 深度研究模式:更高達 97.5%
研究員直言結果「相當驚訝」,因為部分工具在標榜「深入研究」卻反而問題更嚴重。
業界回應與爭議
-
OpenAI:拒絕置評
-
Perplexity:質疑研究方法,指出研究僅使用「預設模型選擇」,而非由用戶手動挑選(如 GPT-4)。研究人員承認這個變因存在,但認為大多數使用者本來就不清楚該怎麼挑選模型。
-
You.com、微軟、Google:未回應
牛津大學研究員 Felix Simon 表示,這份報告雖非完美,但提供了有價值的證據,凸顯 AI 工具常生成偏頗或誤導性答案的問題。不過,蘇黎世大學的 Aleksandra Urman 則質疑評估方法過於依賴 AI 標注,認為人工驗證不足,統計方式也有爭議。
即使結果引發質疑,但多數專家同意一點:AI 生成內容在可靠性上仍有很大改進空間。隨著 AI 工具被更廣泛應用,如何確保答案的準確性、多樣性與來源可信度,已成為產業急需解決的問題。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!