一份君子協議的robots.txt維持了網際網路30年來的秩序,但AI的出現破壞了這種信任和平衡

一份君子協議的robots.txt維持了網際網路30年來的秩序,但AI的出現破壞了這種信任和平衡

ADVERTISEMENT

三十年來,一個不起眼的文字檔一直維持著網路的秩序。這個名為 robots.txt 的檔案,既沒有法律約束力,也沒有複雜的技術要求,卻像網路初始拓荒者間的君子協定,讓所有人都能受益。它就像網路的小型憲法,以程式碼的形式存在。 

這個叫robots.txt的檔案基本上都存在你的網站根目錄下(yourwebsite.com/robots.txt)無論是個人美食部落格或跨國企業,網站管理者都可以透過 robots.txt 告訴網路世界誰可以存取你的網站,誰不能。例如,哪些搜尋引擎可以索引你的網站?哪些資料庫可以保存你的網頁副本?競爭對手是否可以監控你的頁面?都由你決定,並向網路世界宣告。  

這不是一套完美的系統,但它確實有效。數十年來,robots.txt 主要用於控制搜尋引擎,你可以讓它們抓取你的網站內容,而它們則承諾把流量引回給你。然而,人工智慧 (AI) 改變了這一切:網路上的公司開始利用你的網站及其數據構建龐大的訓練資料集,用於建立可能根本不會承認你的存在的新模型和產品。 

robots.txt 檔案原本規範著一種相互協作,但現在 AI 卻像是只索取不貢獻。由於人工智慧蘊含巨大的商業利益,再加上技術發展日新月異,許多網站所有者根本無法跟上步伐。更糟的是,支撐 robots.txt 乃至整個網路的「大家互相尊重」這一基本協議,可能也快要失效了。 

網路早期,機器人曾以各種名稱被提及,像是蜘蛛、網路漫遊者、蠕蟲、網頁螞蟻、網路爬蟲等。當時它們大多出於善意,例如開發者用來建立酷炫新網站目錄、確保自家網站運作正常,或是建立研究資料庫。那大約是 1993 年左右,遠早於搜尋引擎普及,甚至能把整個網路塞進電腦硬碟的時代。  

那時最大的問題其實是流量:無論是使用者造訪網站或網站經營者本身,當時的網路又慢又貴。許多人把網站建在自己電腦上或是靠家用網路連接的簡易伺服器軟體運作,只要幾個爬蟲過度熱心地下載你的網頁,網路就會當掉,電話費也會暴增。 

1994 年,軟體工程師兼開發者馬丁·柯斯特(Martijn Koster)與一群網路管理員和開發者們,共同想出一個名為「機器人排除協議」的解決方案。這個提案相當簡單:它要求網路開發人員在他們的網域中加入一個純文字檔,指定哪些機器人不允許掃描他們的網站,或者列出所有機器人都不允許存取的頁面。(再次強調,當時你可以列出所有現存的機器人-柯斯特和其他一些人就做到了這件事。)對於機器人的創造者來說,協議更簡單:尊重文字檔的意願。 

從一開始,柯斯特就明確表示他不討厭機器人,也沒有打算擺脫它們。他在1994年發給名為WWW-Talk 的郵件列表(其中包括提姆·伯納斯·李(Tim Berners-Lee)和馬克·安德森(Marc Andreessen)等早期網際網路先驅)的第一封電子郵件中表示:「機器人是網路上為數不多的會造成運行問題和讓人頭疼的方面之一。」 )。「但它們同時也提供有用的服務。」柯斯特 告誡人們不要爭論機器人是好是壞,因為這無關緊要,它們已經存在並且不會消失。他只是試圖設計一個系統,可以「最小化問題並最大化收益」。  

那年夏天,他的提議就成為非官方但普遍接受的標準。 柯斯特在 6 月份再次更新了 WWW-Talk 群組。「簡而言之,它是一種透過在伺服器上提供一個簡單的文字檔,將機器人引導遠離Web伺服器 URL 空間中特定區域的方法,」他寫道。「這在你擁有大量檔案、具有大量 URL 子樹的 CGI 腳本、臨時資訊或只想拒絕服務機器人的情況下特別有用。」 他建立了一個主題特定的郵件列表,成員們就這些文字檔的語法和結構達成了共識,將檔案名稱從 RobotsNotWanted.txt 改為簡單的 robots.txt,幾乎所有人都同意支持它。 

在接下來的近 30 年裡,這種做法都非常有效, 它都運作得相當順利。 

但這時網路已經無法再塞進硬碟,機器人也強大得多。 Google使用它們為其搜尋引擎爬取和索引整個網路,該搜尋引擎已成為網路的介面,每年為公司帶來數十億美元的收入。 Bing的爬蟲也是這麼做,微軟將其資料庫許可給其他搜尋引擎和公司。網際網路檔案館使用爬蟲保存網頁以供後世參考。 亞馬遜的爬蟲爬遍網路尋找產品資訊,根據最近的一起反壟斷訴訟,該公司利用這些資訊懲罰不在亞馬遜上提供更優惠價格的賣家。 像 OpenAI 這樣的 AI 公司正在爬取網路以訓練大型語言模型,這些模型可能再次徹底改變我們存取和分享資訊的方式。 

下載、儲存、組織和查詢現代網際網路的能力為任何公司或開發人員提供了相當於全世界積累的知識來工作。 大約在過去一年左右,像 ChatGPT 這樣的 AI 產品及其背後的大型語言模型的興起,使高品質的訓練資料成為網際網路最值錢的商品之一。 這導致各種網際網路提供商重新考慮其伺服器上資料的價值,並重新思考誰可以造訪什麼。 過於寬容可能會讓你的網站失去所有價值;過於嚴格可能會讓你被忽視。 你必須不斷地為新公司、新合作夥伴和新利害關係做出這樣的選擇。  

網路爬蟲種類繁多。你可以創建完全無害的爬蟲,用來檢查頁面連結是否有效;也可以打造更具爭議的爬蟲,從網路上收集所有可以找到的電子郵寄地址或電話號碼。但最常見、也最受爭議的,是簡單的網路爬蟲。它的任務是盡可能找到並下載整個網路的資訊。 

網路爬蟲通常相當簡單。它們從知名網站開始,例如 CNN、維基百科或政府網站等。(如果你運行的是通用搜尋引擎,你將從不同主題的大量高品質網域開始;如果你只關注體育或汽車,你只需從汽車網站開始。)爬蟲會下載第一個頁面並將其儲存在某個地方,然後自動點擊該頁面上的每個連結,下載所有連結,再點擊每個新頁面的所有連結,以此方式擴展到整個網路。如果擁有足夠的時間和運算資源,爬蟲最終會找到並下載數十億個網頁。  

Google 在 2019 年估計,超過 5 億個網站都擁有一個 robots.txt 頁面,用於規定爬蟲可以存取哪些內容。這些頁面的結構大致相同:首先會命名一個「使用者代理」,用來指爬蟲向伺服器自我辨識時使用的名稱。例如,Google 的使用者代理是 Googlebot;亞馬遜的是 Amazonbot;Bing的是 Bingbot;OpenAI 的是 GPTBot。Pinterest、LinkedIn、Twitter 和許多其他網站和服務也有自己的爬蟲,並非所有爬蟲都會在每個頁面上提及。(維基百科和 Facebook 是機器人記錄特別詳盡的兩個平臺。)在這些名字下方,robots.txt 頁面會列出特定使用者代理不允許造訪的網站部分或頁面,以及允許造訪的特定例外。如果一行寫著「Disallow: /」,則完全不歡迎爬蟲。

對於大多數人來說,「伺服器超載」已經很久沒成為真正的問題了。「如今,人們通常不再關注網站上使用的資源,而更多地關注個人偏好,」Google 搜尋宣導者約翰·穆勒(John Mueller)說,「你想要抓取什麼並建立索引等等?」 

歷史上,大多數網站所有者需要回答最大的問題是是否允許 Googlebot 爬取他們的網站。取捨相當簡單:如果 Google 可以爬取你的頁面,它就可以將其索引並顯示在搜尋結果中。任何你想在 Google 上搜尋得到的頁面,都必須讓 Googlebot 看見。(Google實際上如何顯示該頁面,以及在搜尋結果的哪裡顯示該頁面又是另一個故事。)問題是,您是否願意讓 Google 消耗一些你的頻寬並下載你的網站拷貝以換取搜尋帶來的可見性。 

對於大多數網站來說,這是一個簡單的交易。「Google 是我們最重要的爬蟲」,Medium 首席執行長湯尼.史托布勒拜(Tony Stubblebine)說。Google 可以下載所有 Medium 的頁面,「作為交換,我們獲得了大量的流量。這是雙贏的局面。每個人都這麼認為。」這是 Google 與整個網際網路達成的協議,將流量引入其他網站,同時在搜尋結果中銷售廣告。從各方面來說, Google一直是 robots.txt 的良好公民。「幾乎所有知名搜尋引擎都遵守它」,Google 的穆勒說,「他們很高興能夠爬取網路,但他們不想因此惹惱人們...... 這只會讓每個人的生活更輕鬆。」 

不過,在大約一年前,人工智慧的崛起顛覆這種平衡。對於許多出版商和平臺來說,讓他們的資料被爬取用於訓練資料,感覺不再像交易,更像是竊取。「我們很快發現與 AI 公司合作的結果是」,史托布勒拜說,「不僅沒有價值交換,我們實際上什麼也得不到。」去年秋天,當史托布勒拜宣佈 Medium 將禁止AI爬蟲時,他寫道:「AI 公司一直在掠奪作者的價值,然後用來向網路讀者推送垃圾郵件。」 

去年,大部分媒體行業都回應了史托布勒拜的觀點。「我們不認為當前未經 BBC 允許而進行的 『抓取』 BBC 資料以訓練生成式 AI 模型的行為符合公共利益」,BBC 國家事務總監羅德里·塔爾凡·戴維斯(Rhodri Talfan Davies)去年秋天宣佈,BBC 也將禁止 OpenAI 的爬蟲「紐約時報」也在幾個月後屏蔽了 GPTBot,然後才對 OpenAI 提起訴訟,指控 OpenAI 的模型「是透過複製和使用數百萬份《時代週刊》的版權新聞文章、深度調查、觀點文章、評論、指南等資料建造的」。路透社新聞應用程式編輯班·威爾士(Ben Welsh)的一項研究發現,在接受調查的 1,156 家出版商中,有 606 家在他們的 robots.txt 文件中屏蔽了 GPTBot。 

不僅是出版商,亞馬遜、Facebook、Pinterest、WikiHow、WebMD 等許多平臺也明確禁止 GPTBot 存取部分或全部網站。在大多數這些 robots.txt 頁面上,OpenAI 的 GPTBot 是唯一明確且完全不允許的爬蟲。但是還有很多其他專門針對人工智慧的爬蟲開始爬取網路,例如 Anthropic 的 anthropic-ai 和Google的新型 Google-Extended。根據去年 Originality.AI 的一項研究,網路上排名前 1,000 個網站中有 306 個屏蔽了 GPTBot,但只有 85 個屏蔽了 Google-Extended,28 個屏蔽了 anthropic-ai。 

還有一些爬蟲既用於網路搜尋,也用於人工智慧。CCBot 由組織 Common Crawl 運行,用於搜尋引擎目的,但其資料也由 OpenAI、Google等公司用於訓練其模型。微軟的Bing爬蟲既是搜尋爬蟲,也是人工智慧爬蟲。這些只是會自我辨識的爬蟲,還有許多其他的爬蟲會相對隱蔽地運行,使得它們很難被阻止,甚至在其他網路流量中難以發現。對於任何足夠受歡迎的網站來說,找到一個隱秘的爬蟲就像大海撈針一樣。 

在很大程度上,GPTBot 成為 robots.txt 的主要反派,是因為 OpenAI 讓這種情況發生了。該公司發表並推廣了一個頁面,介紹如何阻止 GPTBot,並構立了爬蟲程式,每次接近網站時都會大聲地辨識自己。當然,它是在訓練使其如此強大的基礎模型之後才這樣做,而且只是在它成為科技生態系統的重要組成部分之後才這樣做。但 OpenAI 的首席戰略長傑森·權(Jason Kwon)說,這正是重點所在。「我們是生態系統中的一員,」他說,「如果你想以開放的方式參與這個生態系統,那麼這就是每個人都感興趣的互惠交易。」他表示,如果沒有這種交易,網路就會開始萎縮,封閉,這對 OpenAI 和所有人來說都是不好的。「我們做這一切都是為了讓網路保持開放。」 

預設情況下,機器人排除協定一直都是寬鬆的。它和 30 年前的柯斯特一樣,認為大多數機器人都是好的,是由好人製造的,因此預設允許它們。總而言之,這是正確的決定。「我認為網際網路本質上是一種社會生物,」OpenAI 的權說,「這種持續了幾十年的握手似乎確實奏效了。」他表示,OpenAI 維護該協議的舉措包括讓 ChatGPT 對大多數用戶免費使用,進而將價值回饋給使用者,並尊重 robots 的規則。 

但是 robots.txt 不是正式的法律文件──在它創建後的 30 年裡,它仍然依賴於所有參與方的善意。你在 robots.txt 頁面上禁止爬蟲就像在樹屋上貼了一張「禁止女生入內」的標誌一樣──它傳送了一個訊息,但它在法庭上站不住腳。任何想忽略 robots.txt 的爬蟲都可以這樣做,幾乎不用擔心後果。(不過,網路抓取通常有一些法律先例,儘管這可能很複雜,而且大多數都允許抓取和爬取。) 例如,網際網路檔案館在 2017 年宣佈不再遵守 robots.txt 的規則。網際網路資料庫 Wayback Machine 的主任馬克·格林漢(Mark Graham)當時寫道「隨著時間的推移,我們觀察到面向搜尋引擎爬蟲的 robots.txt 檔不一定能滿足我們存檔的目的。」就這樣,事情發生了。

隨著人工智慧公司不斷增多,其爬蟲變得更加肆無忌憚,任何想退出或等待人工智慧接管的人必須參加一場無休止的「打地鼠」遊戲。他們必須逐個阻止每個機器人和爬蟲 (如果這甚至可能的話),同時也要考慮到副作用。正如Google和其他公司預測的那樣,如果人工智慧真的是搜尋的未來,那麼阻止人工智慧爬蟲可能是一場短期勝利,但卻是長期災難。 

雙方都有人認為我們需要更好、更強大、更嚴格的工具來管理爬蟲。他們認為,錢投入太多,新的不受監管的使用案例太多,僅僅依靠每個人同意做正確的事是不夠的。「雖然許多參與者都制定了一些規則來規範他們使用爬蟲的行為,」兩位科技律師在 2019 年關於網路爬蟲合法性的論文中寫道,「但總體而言之,這些規則太弱,追究他們的責任太困難。」 

一些出版商希望對被爬取的內容及其用途擁有更詳細的控制權,而不像 robots.txt 的一刀切式「是」或「否」許可權。谷歌幾年前曾努力將機器人排除協議正式化,也試圖淡化 robots.txt 的重要性,理由是它是一個舊標準,而且太多網站都沒有關注它。「我們認識到現有的網路出版商控制權是在新的 AI 和研究用例出現之前開發的,」谷歌信任副總裁丹妮爾·羅曼(Danielle Romain)去年寫道。「我們認為,網路和 AI 社群是時候探索其他機器可讀的方法,讓網路出版商在新的 AI 和研究用例中擁有更多選擇和控制權。」 

即使人工智慧公司在如何構建和訓練模型方面面臨監管和法律問題,這些模型仍在不斷改進,新公司似乎每天都在出現。大小網站都面臨著一個選擇:屈服於人工智慧革命,還是堅守陣地。對於那些選擇退出的人來說,他們最強大的武器是一份由網路上最早、最樂觀的一些真正信徒在三十年前達成的一項協定。他們相信網際網路是一個美好的地方,充滿好人,他們最希望網際網路成為一件好事。在這個世界上,在這個網際網路上,用一個文字檔解釋你的願望就足夠了。現在,隨著人工智慧再次重塑網際網路的文化和經濟,一個簡單的純文字檔看起來有點過時了。

資料來源:

netizen
作者

一個老派的科技媒體工作者,對於最新科技動態、最新科技訊息的觀察報告。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則