Google 在搜尋結果中預設顯示的「AI 摘要」(AI Overviews)功能,雖然在大部分情況下能提供準確資訊,但根據最新測試顯示,在超大規模的搜尋流量下,即使錯誤比例極低,每日產生的錯誤答案數量依舊驚人 。
每分鐘恐產出近百萬條錯誤資訊
根據《紐約時報》引用 AI 新創公司 Oumi 的評估報告,大約每 10 條 Google AI 總覽中,就有 1 條包含虛假訊息 。若以 Google 每年處理約 5 兆次搜尋來推算,使用者每小時可能會接觸到超過 5,700 萬條不準確的回答,換算下來幾乎是「每分鐘產生近百萬條」錯誤資訊 。
Oumi 使用生成式 AI 測試基準 SimpleQA 對 Google 搜尋中的 Gemini 準確率進行量化評估 。在 4,326 條搜尋樣本中,去年 10 月 Gemini 2 提供準確 AI 總覽的比例約為 85%,而今年 2 月升級到 Gemini 3 後,準確率已提升至 91% 。
Google 質疑方法:模型幻覺率仍達 28%
對於這份報告,Google 官方認為 Oumi 的測試方法存在缺陷,並不符合真實世界的使用行為 。然而,根據 Google 內部的測試資料顯示,在脫離搜尋環境、單獨執行的情況下,Gemini 3 的「幻覺率」(即生成錯誤內容的比例)仍高達約 28% 。
此外,評估難度也因 AI 的隨機性而增加。Google 在現實使用中,有時會對同一個搜尋請求給出不同的 AI 總覽內容,即便兩次搜尋之間僅間隔數秒,結果也可能不同 。
來源連結不符:準確度升級但一致性下降
資訊來源的引用也是一大難題 。研究發現,Google AI 總覽中附上的相關連結,經常無法真正支撐 Gemini 給出的結論 。有時錯誤的總覽後方連結卻是正確資訊;有時總覽準確,引用的網頁卻含有錯誤訊息;甚至有部分連結頁面與總覽內容毫無關聯 。
值得注意的是,AI 總覽與其引用來源之間的「不一致」現象在模型升級後反而更加嚴重:使用 Gemini 2 時,有 37% 的搜尋存在不一致,而升級至 Gemini 3 後,這一比例竟然攀升至 56% 。
外部操弄風險:錯誤訊息隔天就上榜
研究人員還發現,AI 總覽容易被外部刻意發布的內容所操弄 。一位 BBC 記者曾在個人部落格刻意發布錯誤資訊,結果第二天 Google 就在搜尋總覽中重複了這些不實內容 。
目前,幾家主流科技公司在使用條款中皆坦承生成式 AI 對真實性的把握仍有侷限 。Microsoft 在條款中將 Copilot 工具界定為「僅供娛樂」,不建議用於重大決策;Google 則在介面明確提醒使用者需對回答進行再次核查;xAI 也公開承認其模型存在產生「幻覺」的可能性 。
雖然從 Gemini 2 到 Gemini 3 的準確率有顯著提升,但「每分鐘百萬條錯誤」的量級提醒了我們,AI 搜尋目前仍無法完全取代傳統的資料比對。特別是模型升級後,總覽與來源連結的不一致比例反而提高,這顯示 AI 在「理解並摘要」正確資訊的邏輯上仍有盲點。對於使用者而言,看到 AI 提供的精美總覽時,多點一下後方的來源連結進行複查,恐怕是在 AI 時代保護自己免受假訊息誤導的必要手段。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!