Google 打算抓取你發表在網路上的任何訊息內容來訓練AI,包括部落格、照片、程式碼、論文......

Google 打算抓取你發表在網路上的任何訊息內容來訓練AI,包括部落格、照片、程式碼、論文......

ADVERTISEMENT

從今以後後,你在網上公開說的每一句話,都可能被Google拿去訓練AI! 沒錯,繼繪畫之後,文字作品也要被用來餵大模型了——

無論是技術部落客、程式碼、論文,還是所有你在網上公開的發文,都可能被扔進「Google大模型攪拌機」,即使有版權也是如此。 

就在這周,谷歌更新了一版隱私政策,明確表示他們保留有抓取網上所有公開內容,以構建其AI工具的權利。 Google 打算抓取你發表在網路上的任何訊息內容來訓練AI,包括部落格、照片、程式碼、論文......

網友們立刻炸開來了。有人警告「Google正抓取一切」: 

一旦Google能夠讀取你寫的東西,就意味著這些都是他們的「所有物」了。

Google 打算抓取你發表在網路上的任何訊息內容來訓練AI,包括部落格、照片、程式碼、論文......

還有網友抱持更悲觀的想法: 

很快啊,所有內容產出者就都會是AI了。

Google 打算抓取你發表在網路上的任何訊息內容來訓練AI,包括部落格、照片、程式碼、論文......

 

所以這次的隱私政策改了哪些東西? 

用於訓練Bard等AI產品

事情還得從Google這幾天更新的隱私政策說起。 

在最新的隱私權政策中,谷歌增加了一個關於「研究和開發」的AI模型條款: 

Google會利用資訊來改進我們的服務並開發新的產品、功能和技術,以惠及我們的使用者和公眾。

例如,我們會利用公開訊息來説明訓練Google的AI模型並打造實用產品和功能(比如Google翻譯、Bard和Cloud AI功能)。

換言之,就是將所有可能收集到的公開訊息,用在谷歌翻譯、Bard和Cloud AI等AI相關產品或功能的訓練中。

Google 打算抓取你發表在網路上的任何訊息內容來訓練AI,包括部落格、照片、程式碼、論文......

這些公開訊包括哪些內容?有網際網路、網路和其他活動資訊,包括搜尋字詞、應用程式和瀏覽器與Google服務進行互動的相關資訊,以及在第三方網站和應用程式中使用Google服務等。 

換而言之,不止是此前已經公開的部落客等內容,包括公開到網上的谷歌文件、或是一些包含個人資訊的發文,也可能會被Google搜集來訓練大模型。 

當然,目前這些內容都還限定在「公開訊息」。 像Google提供的Gmail等電子郵件服務,目前應該是還不會被爬進資料裡的。而且Google也明確在隱私權政策中表示,在其他如防範安全威脅、資訊審核、服務維護、個性化廣告或法律等原因情況下,同樣可以使用這些個人或公開訊息。 

不過,Google為什麼在這個時間點更新這個政策? 

「AI正挑戰文字版權」

或許也與Reddit和Twitter等公司最近的出的「限制瀏覽」有關。

先是今年4月,Reddit宣布對接入API的公司開始收費。公司CEO認為,Reddit的資料庫很有價值,但是他們不想將這些有價值的內容免費提供給科技大公司。 

隨後,Twitter也開始以「不想讓AI公司免費使用資料」的理由,為Twitter限制瀏覽,未經驗證使用者每日只能瀏覽600篇發文,經過驗證後可以增加到6000篇。 

這一系列政策對使用者和第三方工具影響很嚴重,例如Reddit引發了大規模的討論版的抗議,不少版主直接關閉了自己管理的論壇,以對Reddit這一活動進行抗議,Twitter上也有不少人在聲討,甚至有網友表示「Twitter被殺死了」。 

但無論如何,讓AI免費抓取資料這件事,現在都已經是一個無法忽視的矛盾了。 

對於GoogleAI爬資料這件事,有網友表示疑惑: 

為什麼之前網路的搜尋引擎也有爬取資料一類的動作,但人們卻偏偏對「AI抓取」感到抗拒。

Google 打算抓取你發表在網路上的任何訊息內容來訓練AI,包括部落格、照片、程式碼、論文......

 

有網友回應稱: 

本質上還是版權的問題。如果只是引用受版權保護的資料,那麼不一定侵犯版權,但如果用AI對有版權的內容進行「攪拌清洗」,而且這事兒合法化了,那麼本質上版權已死。

Google 打算抓取你發表在網路上的任何訊息內容來訓練AI,包括部落格、照片、程式碼、論文......

 

也正是因此,他對於這件事感到悲觀: 

如果有人在不標注來源的情況下複製了你的部落格,或是將你的開源的原始碼拿去做付費服務,又或是將你在StackOverflow上的答案用作答題方法,你能接受這些情況發生嗎?

我之前做的一切都是免費的。但現在如果AI想讓我消失,那我就會消失。

Google 打算抓取你發表在網路上的任何訊息內容來訓練AI,包括部落格、照片、程式碼、論文......

當然,也有網友已經接受了這個政策的推出,警惕大家自身防範意識不可或缺: 

細讀新政策,注意我們洩露了多少資訊到網上。

Google 打算抓取你發表在網路上的任何訊息內容來訓練AI,包括部落格、照片、程式碼、論文......

你自己的看法是什麼? 

資料來源:

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則