
AI 初創公司 Perplexity 被指控刻意繞過網站的防爬設定,繼續抓取原本明確禁止 AI 存取的內容。根據網路基礎建設大廠 Cloudflare 公布的最新研究,Perplexity 不只改變機器人身分標示(User Agent),還會模擬 Google Chrome 瀏覽器、變更網路路由,掩蓋自己是 AI 爬蟲的事實。
Cloudflare 表示:「我們已在數萬個網域、每天數百萬筆請求中發現這種行為。」
被爆「偽裝身分+換 IP」 AI 初創公司抓資料玩得很積極
Cloudflare 研究團隊指出,Perplexity 嘗試躲避網站透過 robots.txt 設定的限制,這個檔案是網站用來告訴搜尋引擎或 AI 工具哪些內容可以抓、哪些不能抓的重要機制。Perplexity 不僅改變 User Agent(身分識別),還透過變更 ASN(自治系統編號)讓自己看起來不像 AI 機器人,繞過封鎖。
更誇張的是,Cloudflare 發現這些爬蟲在被擋下後,還會改用看似一般使用者的瀏覽器模擬,如 macOS 版的 Google Chrome,再次嘗試存取內容。
Perplexity 否認指控,雙方說法不一
對於這項指控,Perplexity 發言人 Jesse Dwyer 反擊稱:「Cloudflare 的報告只是行銷操作,裡面提供的截圖也顯示我們根本沒有存取到內容。」他甚至強調,報告中提到的某些爬蟲「根本不是我們的」。
不過 Cloudflare 表示,他們是在多位客戶投訴後展開調查,確認 Perplexity 的爬蟲行為無視封鎖機制,才正式將其從「可信任的爬蟲名單」中移除,並升級封鎖技術。
AI 爬蟲成出版業「潛在殺手」 Cloudflare 加入反擊戰線
近年生成式 AI 爆發,業者普遍仰賴「抓網路內容」來訓練模型。許多新聞網站、出版商或平台主則透過 robots.txt 明確限制 AI 存取,以維護自身內容權益。
Cloudflare 執行長 Matthew Prince 曾強烈批評:「AI 正在破壞網路的商業模式,特別是出版業。」該公司近期更推出新平台,允許網站對 AI 爬蟲收費,並免費提供防抓工具,讓業者能更有效抵擋「資料掠奪」。
事實上,這不是 Perplexity 第一次捲入爭議。2024 年底,美國科技媒體《WIRED》就曾指控 Perplexity「直接抄襲文章內容」,引發業界對 AI 訓練資料來源合法性的高度關注。
- 延伸閱讀:微軟Edge 瀏覽器發表全新 Copilot 模式,狙擊 Perplexity Comet 瀏覽器、從被動等待變主動預測!
- 延伸閱讀:Perplexity 積極布局智慧型手機市場,洽談預載 Comet 瀏覽器挑戰 Google Chrome
- 延伸閱讀:WhatsApp 神助手!Perplexity AI 中文支援,即時問答、圖片生成超方便
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!