Google AI 搜尋每天可能產生數千萬條錯誤答案？Gemini 3 幻覺率數據引發熱議

Google 在搜尋結果中預設顯示的「AI 摘要」（AI Overviews）功能，雖然在大部分情況下能提供準確資訊，但根據最新測試顯示，在超大規模的搜尋流量下，即使錯誤比例極低，每日產生的錯誤答案數量依舊驚人。

每分鐘恐產出近百萬條錯誤資訊

根據《紐約時報》引用 AI 新創公司 Oumi 的評估報告，大約每 10 條 Google AI 總覽中，就有 1 條包含虛假訊息。若以 Google 每年處理約 5 兆次搜尋來推算，使用者每小時可能會接觸到超過 5,700 萬條不準確的回答，換算下來幾乎是「每分鐘產生近百萬條」錯誤資訊。

Oumi 使用生成式 AI 測試基準 SimpleQA 對 Google 搜尋中的 Gemini 準確率進行量化評估。在 4,326 條搜尋樣本中，去年 10 月 Gemini 2 提供準確 AI 總覽的比例約為 85%，而今年 2 月升級到 Gemini 3 後，準確率已提升至 91% 。

Google 質疑方法：模型幻覺率仍達 28%

對於這份報告，Google 官方認為 Oumi 的測試方法存在缺陷，並不符合真實世界的使用行為。然而，根據 Google 內部的測試資料顯示，在脫離搜尋環境、單獨執行的情況下，Gemini 3 的「幻覺率」（即生成錯誤內容的比例）仍高達約 28% 。

此外，評估難度也因 AI 的隨機性而增加。Google 在現實使用中，有時會對同一個搜尋請求給出不同的 AI 總覽內容，即便兩次搜尋之間僅間隔數秒，結果也可能不同。

來源連結不符：準確度升級但一致性下降

資訊來源的引用也是一大難題。研究發現，Google AI 總覽中附上的相關連結，經常無法真正支撐 Gemini 給出的結論。有時錯誤的總覽後方連結卻是正確資訊；有時總覽準確，引用的網頁卻含有錯誤訊息；甚至有部分連結頁面與總覽內容毫無關聯。

值得注意的是，AI 總覽與其引用來源之間的「不一致」現象在模型升級後反而更加嚴重：使用 Gemini 2 時，有 37% 的搜尋存在不一致，而升級至 Gemini 3 後，這一比例竟然攀升至 56% 。

外部操弄風險：錯誤訊息隔天就上榜

研究人員還發現，AI 總覽容易被外部刻意發布的內容所操弄。一位 BBC 記者曾在個人部落格刻意發布錯誤資訊，結果第二天 Google 就在搜尋總覽中重複了這些不實內容。

目前，幾家主流科技公司在使用條款中皆坦承生成式 AI 對真實性的把握仍有侷限。Microsoft 在條款中將 Copilot 工具界定為「僅供娛樂」，不建議用於重大決策；Google 則在介面明確提醒使用者需對回答進行再次核查；xAI 也公開承認其模型存在產生「幻覺」的可能性。

雖然從 Gemini 2 到 Gemini 3 的準確率有顯著提升，但「每分鐘百萬條錯誤」的量級提醒了我們，AI 搜尋目前仍無法完全取代傳統的資料比對。特別是模型升級後，總覽與來源連結的不一致比例反而提高，這顯示 AI 在「理解並摘要」正確資訊的邏輯上仍有盲點。對於使用者而言，看到 AI 提供的精美總覽時，多點一下後方的來源連結進行複查，恐怕是在 AI 時代保護自己免受假訊息誤導的必要手段。