FB 建議貼文

選取貼文複製成功(包含文章連結)!

Perplexity 被抓包「偷偷爬站」!Cloudflare:刻意繞過封鎖、偽裝成 Google Chrome

Perplexity 被抓包「偷偷爬站」!Cloudflare:刻意繞過封鎖、偽裝成 Google Chrome

AI 初創公司 Perplexity 被指控刻意繞過網站的防爬設定,繼續抓取原本明確禁止 AI 存取的內容。根據網路基礎建設大廠 Cloudflare 公布的最新研究,Perplexity 不只改變機器人身分標示(User Agent),還會模擬 Google Chrome 瀏覽器、變更網路路由,掩蓋自己是 AI 爬蟲的事實。

Cloudflare 表示:「我們已在數萬個網域、每天數百萬筆請求中發現這種行為。」

被爆「偽裝身分+換 IP」 AI 初創公司抓資料玩得很積極

Cloudflare 研究團隊指出,Perplexity 嘗試躲避網站透過 robots.txt 設定的限制,這個檔案是網站用來告訴搜尋引擎或 AI 工具哪些內容可以抓、哪些不能抓的重要機制。Perplexity 不僅改變 User Agent(身分識別),還透過變更 ASN(自治系統編號)讓自己看起來不像 AI 機器人,繞過封鎖。

更誇張的是,Cloudflare 發現這些爬蟲在被擋下後,還會改用看似一般使用者的瀏覽器模擬,如 macOS 版的 Google Chrome,再次嘗試存取內容。

Perplexity 否認指控,雙方說法不一

對於這項指控,Perplexity 發言人 Jesse Dwyer 反擊稱:「Cloudflare 的報告只是行銷操作,裡面提供的截圖也顯示我們根本沒有存取到內容。」他甚至強調,報告中提到的某些爬蟲「根本不是我們的」。

不過 Cloudflare 表示,他們是在多位客戶投訴後展開調查,確認 Perplexity 的爬蟲行為無視封鎖機制,才正式將其從「可信任的爬蟲名單」中移除,並升級封鎖技術。

AI 爬蟲成出版業「潛在殺手」 Cloudflare 加入反擊戰線

近年生成式 AI 爆發,業者普遍仰賴「抓網路內容」來訓練模型。許多新聞網站、出版商或平台主則透過 robots.txt 明確限制 AI 存取,以維護自身內容權益。

Cloudflare 執行長 Matthew Prince 曾強烈批評:「AI 正在破壞網路的商業模式,特別是出版業。」該公司近期更推出新平台,允許網站對 AI 爬蟲收費,並免費提供防抓工具,讓業者能更有效抵擋「資料掠奪」。

事實上,這不是 Perplexity 第一次捲入爭議。2024 年底,美國科技媒體《WIRED》就曾指控 Perplexity「直接抄襲文章內容」,引發業界對 AI 訓練資料來源合法性的高度關注。

 

 

 

 

KKJ
作者

快科技成立於1998年,是驅動之家旗下科技媒體業務,中國極具影響力的泛科技領域媒體平台之一。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則