被 AI 爬蟲「爬爆」伺服器之後，維基百科選擇了無奈投降

說到維基百科，相信不少人都不陌生。對多數人而言，想快速理解一個概念，維基百科往往是最便捷、最開放、也最值得信賴的知識入口。它背後的營運單位「維基媒體基金會」（Wikimedia Foundation）除了營運維基百科外，還管理了維基詞典、維基教科書與維基共享資源等一系列自由知識平台，全都對全球開放免費使用。

但近期，維基媒體卻遇上前所未有的麻煩──來自 AI 大型語言模型公司的超量爬蟲攻擊，讓他們的伺服器幾近癱瘓。

與其擋不住，不如乾脆「上供」

過去一年，AI 公司為了取得高品質語料，開始瘋狂爬取像維基百科這樣的資料來源。與其繼續被不斷「扒文」，維基媒體最後乾脆主動把資料整理好，上傳到 Kaggle（Google 旗下的資料社群平台），向 AI 公司表示：「請自取，拜託別再來爬了。」

不僅如此，為了讓 AI 更容易理解這些資料，維基媒體還特別將內容轉成結構化 JSON 格式，明確標示標題、段落與摘要，方便模型快速解析，連格式都「客製化」處理了。

這波操作讓不少人直呼：「這是拿肉餵狼啊。」

從 50% 到 65%──AI 爬蟲壓垮了核心伺服器

根據維基媒體先前在 4 月 1 日發表的公開聲明，自 2024 年以來，用於下載維基多媒體內容的頻寬流量暴增了 50%。本以為大家更愛學習，結果一查才發現：都是 AI 公司派來的爬蟲搞的鬼。

這些爬蟲無差別地掃描幾乎所有頁面，導致大量查詢繞過地區節點，直衝美國維基核心資料中心。根據內部分析，高達 65% 的高成本流量都是由 AI 爬蟲造成的。要知道，維基伺服器的年度託管成本超過 300 萬美元，這樣的消耗無疑是雪上加霜。

robots.txt？對現在的 AI 公司來說只是紙老虎

你可能會問：不是有 robots.txt 可以擋爬蟲嗎？

在過去，這份協議的確具備道德約束力，爬蟲只要讀到網站寫明禁止，就會自動停止。不過在當前「AI 同業競賽」時代，這種「君子協議」早已形同虛設。

例如 iFixit 的創辦人就抱怨 OpenAI 的 Claude 模型在一天內爬了上百萬次。即便後來把它加入 robots.txt 中封鎖，對方也只是稍微減速，變成半小時抓一次。

更有 AI 公司被抓包，換個 user-agent 名稱就繼續爬──你不讓「OpenAI」進來，我改名叫「周樹人」總行了吧？

像 Perplexity 也曾被《WIRED》爆出完全無視 robots.txt，繼續爬行。

AI 防爬對策：從「假資料」到「資訊迷宮」

因應爬蟲橫行，有人嘗試創建特殊的陷阱連結，只要 AI 點擊就代表它是爬蟲；也有人使用 Web 應用防火牆（WAF）來封鎖異常流量，甚至加上人機驗證。

Cloudflare 最近也出招，讓爬蟲進來，但給它假的網頁內容（錯誤資料）當「餿飯」吃，以避免真實資料被抓走。而另一款叫「Nepenthes 猪籠草」的工具則更狠，它不僅讓爬蟲困在沒有出口的「資訊迷宮」裡，還會不斷餵給它亂碼與隨機語句，污染其訓練數據集，據說目前只有 OpenAI 的爬蟲能勉強逃出。

告不告？維基百科：我們天生就開放

很多人疑問：為什麼不學《紐約時報》那樣直接提告？

其實，維基媒體的立場比較特殊。維基百科採用的創用 CC BY-SA 授權條款允許他人自由使用，只要標註來源與採用相同授權條件，因此 AI 公司使用這些資料在技術上大致仍算合法。

與其花費高昂成本提告，加上 AI 法規尚不明確，維基媒體最終還是選擇了「與其讓伺服器被爬爆，不如主動提供乾淨資料」。

更重要的是，維基媒體的核心理念是：「讓全世界每一個人都能自由獲得人類所有知識」。在這樣的理念下，與其進入版權攻防戰，不如繼續站穩「開放知識」的道德高地。

最無奈、也最務實的選擇

對維基媒體而言，這場與 AI 爬蟲的交鋒，可能不只是資源與頻寬的競爭，更是一場價值觀的博弈。選擇主動釋出資料，看似妥協，其實也是一種保全社群與理念的現實選擇。

正如一位評論者說的：「這不是投降，而是避免內爆。」