ADVERTISEMENT
說到維基百科,相信不少人都不陌生。對多數人而言,想快速理解一個概念,維基百科往往是最便捷、最開放、也最值得信賴的知識入口。它背後的營運單位「維基媒體基金會」(Wikimedia Foundation)除了營運維基百科外,還管理了維基詞典、維基教科書與維基共享資源等一系列自由知識平台,全都對全球開放免費使用。
但近期,維基媒體卻遇上前所未有的麻煩──來自 AI 大型語言模型公司的超量爬蟲攻擊,讓他們的伺服器幾近癱瘓。
與其擋不住,不如乾脆「上供」
過去一年,AI 公司為了取得高品質語料,開始瘋狂爬取像維基百科這樣的資料來源。與其繼續被不斷「扒文」,維基媒體最後乾脆主動把資料整理好,上傳到 Kaggle(Google 旗下的資料社群平台),向 AI 公司表示:「請自取,拜託別再來爬了。」
ADVERTISEMENT
不僅如此,為了讓 AI 更容易理解這些資料,維基媒體還特別將內容轉成結構化 JSON 格式,明確標示標題、段落與摘要,方便模型快速解析,連格式都「客製化」處理了。
這波操作讓不少人直呼:「這是拿肉餵狼啊。」
從 50% 到 65%──AI 爬蟲壓垮了核心伺服器
根據維基媒體先前在 4 月 1 日發表的公開聲明,自 2024 年以來,用於下載維基多媒體內容的頻寬流量暴增了 50%。本以為大家更愛學習,結果一查才發現:都是 AI 公司派來的爬蟲搞的鬼。
ADVERTISEMENT
這些爬蟲無差別地掃描幾乎所有頁面,導致大量查詢繞過地區節點,直衝美國維基核心資料中心。根據內部分析,高達 65% 的高成本流量都是由 AI 爬蟲造成的。要知道,維基伺服器的年度託管成本超過 300 萬美元,這樣的消耗無疑是雪上加霜。
robots.txt?對現在的 AI 公司來說只是紙老虎
你可能會問:不是有 robots.txt 可以擋爬蟲嗎?
ADVERTISEMENT
在過去,這份協議的確具備道德約束力,爬蟲只要讀到網站寫明禁止,就會自動停止。不過在當前「AI 同業競賽」時代,這種「君子協議」早已形同虛設。
例如 iFixit 的創辦人就抱怨 OpenAI 的 Claude 模型在一天內爬了上百萬次。即便後來把它加入 robots.txt 中封鎖,對方也只是稍微減速,變成半小時抓一次。
ADVERTISEMENT
更有 AI 公司被抓包,換個 user-agent 名稱就繼續爬──你不讓「OpenAI」進來,我改名叫「周樹人」總行了吧?
像 Perplexity 也曾被《WIRED》爆出完全無視 robots.txt,繼續爬行。
AI 防爬對策:從「假資料」到「資訊迷宮」
因應爬蟲橫行,有人嘗試創建特殊的陷阱連結,只要 AI 點擊就代表它是爬蟲;也有人使用 Web 應用防火牆(WAF)來封鎖異常流量,甚至加上人機驗證。
Cloudflare 最近也出招,讓爬蟲進來,但給它假的網頁內容(錯誤資料)當「餿飯」吃,以避免真實資料被抓走。而另一款叫「Nepenthes 猪籠草」的工具則更狠,它不僅讓爬蟲困在沒有出口的「資訊迷宮」裡,還會不斷餵給它亂碼與隨機語句,污染其訓練數據集,據說目前只有 OpenAI 的爬蟲能勉強逃出。
告不告?維基百科:我們天生就開放
很多人疑問:為什麼不學《紐約時報》那樣直接提告?
其實,維基媒體的立場比較特殊。維基百科採用的創用 CC BY-SA 授權條款允許他人自由使用,只要標註來源與採用相同授權條件,因此 AI 公司使用這些資料在技術上大致仍算合法。
與其花費高昂成本提告,加上 AI 法規尚不明確,維基媒體最終還是選擇了「與其讓伺服器被爬爆,不如主動提供乾淨資料」。
更重要的是,維基媒體的核心理念是:「讓全世界每一個人都能自由獲得人類所有知識」。在這樣的理念下,與其進入版權攻防戰,不如繼續站穩「開放知識」的道德高地。
最無奈、也最務實的選擇
對維基媒體而言,這場與 AI 爬蟲的交鋒,可能不只是資源與頻寬的競爭,更是一場價值觀的博弈。選擇主動釋出資料,看似妥協,其實也是一種保全社群與理念的現實選擇。
正如一位評論者說的:「這不是投降,而是避免內爆。」
ADVERTISEMENT