OpenAI公開「官方爬蟲」GPTBot，靠它爬取網路資料訓練GPT-5

大家都知道，OpenAI 從 GPT-4 開始就已經對技術細節完全保密了，最初只用一份 Tech Report 來展示基準測試結果，而閉口不談訓練資料和模型參數。儘管後來有網友各種爆料，OpenAI 也從來沒有回應。

不難想像，訓練 GPT-4 需要巨量的資料，這可不是付費購買能解決的問題。有很大的機率，OpenAI 使用了網路爬蟲來獲取這些訓練資料。很多使用者指控 OpenAI，理由就是這種手段會侵犯使用者的版權和隱私權。

剛剛，OpenAI 攤牌了：直接公開從整個網際網路爬取資料的網路爬蟲 ——GPTBot。

延伸閱讀：OpenAI申請註冊GPT-5商標，將具備語音理解與生成的能力

這些資料將被用來訓練 GPT-4、GPT-5 等 AI 模型。不過 GPTBot 保證了，爬取內容絕對不包括違反隱私來源和需要付費的內容。

OpenAI 表示：「使用 GPTBot 爬取網路資料是為了改進 AI 模型的準確性、功能性和安全性。」

網站所有者可以根據需要允許或限制 GPTBot 爬取網站資料。接下來，我們來看一下 GPTBot是如何工作的，順便瞭解一下遮蔽的方法。

首先，GPTBot 的使用者代理字串（User-Agent String）如下：

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

使用如下方法可以將 GPTBot 加入到網站的 robots.txt，禁止 GPTBot 造訪網站：

User-agent: GPTBot 
Disallow: /

還可以允許 GPTBot 造訪網站特定部分的內容：

User-agent: GPTBot 
Allow: /directory-1/ 
Disallow: /directory-2/

近期，OpenAI 因為未經明確批准而在網站資料上訓練 GPT-4 等大型語言模型而遭到強烈反對。批評者們表示，即使內容可以公開造訪，像 OpenAI 這樣的公司也應該遵循訓練協議。人們還擔心，內容在輸入 AI 系統時會被斷章取義。

但即使遵循了 robots 協定，鑒於其並不是規範，而只是約定俗成的，所以並不能保證網站的隱私。

GPTBot 發表之後，這條動態已經在 Hacker News 上引發了一場爭論，焦點是使用抓取的網路資料來訓練人工智慧系統的道德和合法性。

一部分人認為，GPTBot 的推出展示了使用公開資料研發 AI 模型的「灰色地帶」：

「在訓練完模型後還爬取資料，這真是太好了。根據推測，這些 header 不會影響他們已經抓取來訓練 GPT 的任何頁面。」

「現在，他們可以遊說反抓取的管理並阻礙其他任何的追趕了。」

鑒於 GPTBot 會辨識自己的身份，因此網站管理員可以透過 robots.txt 阻止它，但有些人認為允許它這樣做沒有任何好處，不像搜尋引擎爬蟲會帶來流量。

一個值得關注的問題是，受版權保護的內容會在未注明出處的情況下被使用。ChatGPT 目前沒有注明出處。

還有人質疑 GPTBot 如何處理網站上的授權圖片、影片、音樂和其他媒體。如果這些媒體在模型訓練中用到，則可能構成版權侵權。

另外一些專家認為，如果 AI 編寫的內容被回饋到訓練中，爬蟲產生的資料可能會降低模型的性能。

相反，一些人認為 OpenAI 有權自由使用公共網路資料，並將其比作一個人從線上內容中學習。但也有人認為，如果 OpenAI 將網路資料貨幣化以獲取商業利益，那麼就應該分享利潤。

總之，GPTBot 引發了關於所有權、合理使用和網路內容創建者激勵機制的複雜爭論。雖然遵循 robots.txt 是一個很好的步驟，但仍然缺乏透明度。

這或許是科技界下一個輿論焦點：隨著 AI 產品的快速發展，「資料」到底該怎麼用？

資料來源：