你PO在社群網站上的照片，可能在你不知情下早就被拿去訓練人工智慧了

▲ 韋斯特於2013年拍攝的這張照片被收錄在IBM的人像資料集（Diversity in Faces）中毫無疑問，這張家庭照片是非常可愛的:照片中的爸爸留著短鬚，戴著無框眼鏡，棕色頭髮的媽媽咧著嘴笑著。他們正和兩個蹣跚學步的女兒一起嬉戲，同時品嚐著冰淇淋。

但是，這張照片於2013年被上傳到照片網站Flickr上時，「可愛」以外的屬性引發了爭議。對於臉部辨識系統來說，這張照片有著獨特的意義。照片裡，人臉出現在了畫面的不同位置。這樣的照片能夠幫助訓練人工智慧來辨識照片和影片中的人臉。

IBM開發了一個名為「人臉多樣性」的新項目，並為其準備了上百萬張圖片，這張其樂融融的照片就是其中之一，該項目旨在提升人臉辨識的公平性和準確性。

照片的拍攝者是佛蒙特州農村的一名圖書管理員，名叫潔西文‧韋斯特Jessamyn West。當她發現這張照片被IBM使用了的時候，她感到既驚訝又憤怒，她曾將這張照片上傳到Flickr，並添加了創用CC（Creative Commons）協議，以便讓其他人可以使用這張照片。

但是她不知道的是，包括她拍攝的自畫像在內的十幾張照片，和這張照片一樣都包含在了人臉辨識資料集中，這讓她感到十分不安。她說：「如果當初有人（就使用我的照片）徵求過我的同意，我不會如此不安和憤怒。」

多年來，研究人員們透過網路收集並註釋了各類物體的照片，以此來訓練電腦，讓其可以更好地瞭解它們周圍的世界。通常，他們透過Google圖片搜尋、公共Instagram帳戶和一些其他的途徑（有些合法，有些可能不合法）獲取數量巨大的圖片。得到的資料集通常被用於學術研究，比如訓練或測試人臉辨識演算法。但隨著Microsoft、Amazon、Facebook和Google等公司押寶人工智慧，人臉辨識正走出實驗室，進入大型企業的視野中。

隨著消費者意識到他們在網上留下的資料能夠產生的巨大威力，人臉辨識資料集正在加劇人們對隱私和監控的擔心。因此，一些研究人員正在重新審視這種野蠻收集他人照片的行徑。在充滿分享精神的互聯網中，使用他人照片本應徵求別人同意。

照片從哪裡來？

由於深度學習的普及，近年來機器學習研究蒸蒸日上，人臉辨識技術也得到了極大的改善。在一個典型的用例中，照片、影片或即時串流媒體中的人臉會被掃瞄、分析，接著，它們的特徵會被拿來與資料庫中註釋過的人臉進行比較。

這項技術正被用於打擊人口販運和機場快速安檢，同時它也被用於監視音樂會、體育賽事。

然而，臉部辨識的準確性仍是一個問題。研究人員開始擔心人工智慧系統中存在的歧視和偏見。該技術在正確辨識有色人種和女性等方面還存在著重大缺陷。造成這一問題的原因之一，是資料集裡男性相對於女性、白人相對有色人種的懸殊比例。

對機器訓練來說，資料多樣性很重要，但資料的體量大小也同樣重要。人臉辨識系統的訓練和測試需要在數千萬甚至數百萬張人臉上進行。

多年來，研究人員一直透過IBM的人臉辨識資料集來進行相關研究。這個包含圖片連結的資料集都是從Flickr和雅虎發佈一百萬張圖片的資源包中整理生成。該資源包被稱為YFCC100M，它被用於各種各樣的科學項目研究，包括在不使用地理坐標的情況下估算照片和影片的拍攝地點的研究。

許多公司、研究機構和個人都為臉部辨識編制了資料集，IBM只是其中之一。其中一些資料集由實際的圖像組成，還有一些類似IBM的資料集，是由圖像連結組成的。有時，資料集也是可以透過拍攝模特得到的。

▲ 這些人像屬於NVIDIA用於訓練GAN系統的資料集通常情況下，這些資料集是知識共享的，但它們必須用於非商業目的，比如演算法研究。但CNN發現，大量的類似資料集可以從Github等網站免費下載。

David A. Shamma在雅虎實驗室擔任研究主管時，幫助整理了Flickr的資料集。他認為，近些年來學術界為了機器視覺和辨識研究，正從他們能接觸到的任何地方，想方設法地蒐集資料，「在這個一個學術領域裡，人們經常說，『沒有造成傷害，就不算犯規』」。

Shamma認為，他和他的同事發佈的Flickr大資料集，透過將大量授權的圖片交給研究人員，可以幫助學術界以此為基礎進行研究。

這些被上傳到Flickr上的圖片來源於像韋斯特這樣的普通人和一些專業人士。這些圖片擁有的知識共享協議是一種特殊類型的版權許可，?它明確規定了圖像可以在何種條件下被他人使用和共享。

知識共享協議於2002年首次發佈，遠遠早於當前的人工智慧熱潮。

儘管研究人員在Flickr等網站上免費使用圖片，但他們也承認，許多上傳這些照片的人可能會對照片被用於訓練人工智慧的事實感到驚訝。

Shamma說:「我認為人們對自己的照片用途有一定的預計，但是當被告知具體的人工智慧用途時，他們仍會感到意外。」

不滿再升級

不論人工智慧的從業者們如何解釋，韋斯特在得知自己照片被用作機器學習後大吃一驚。今年3月，她在閱讀了一篇NBC新聞報導後，搜尋了自己的Flickr帳戶。結果發現她為朋友的家人拍的照片和其他許多照片一樣，都是資料集的一部分時，她很沮喪。她認為人工智慧的未來很明朗，但自己的照片在不知情的情況下被用來訓練人工智慧使她憂心重重。

Twitter上相關的文章充斥著普通網友的抗議。很多人也沮喪地發現，他們在網上分享的照片（通常是很久以前的照片）成為了訓練人工智慧的素材。

韋斯特要求IBM從資料集中刪除她的照片，但這只能透過發郵件來完成。她還必須授權IBM使用她的社交帳號，以便其能夠找到並刪除每一張照片。

IBM表示，它「致力於保護隱私權」，資料集中涉及到的人隨時都可以選擇退出。不過，它並沒有提供工具來幫助確認資料集是否包含了特定的圖像，因此人們必須通過NBC構建的搜尋工具來查找。

與此同時，晶片製造商NVIDIA的研究人員正在研究IBM的經驗教訓，並考慮改變自己的做法。

今年3月,NVIDIA發佈一個線上工具，幫助人們瞭解他們的照片是否被包含在用於訓練StyleGAN的資料集裡。StyleGAN是今年2月NVIDIA公佈的一個人工智慧系統，善於創造實際上並不存在的逼真人臉，它的資料集包含70,000張高品質的Flickr授權圖片。

在NBC揭露了私人圖片被用作機器訓練後，NVIDIA的線上工具才出現在網絡上。然而NVIDIA負責圖形研究的副總裁David Luebke辯稱，這項工具已經開發了一段時間了。

他說:「當人們慢慢意識到這一點的同時，我們也一直在為之努力。只要有人（對蒐集自己的圖片）提出反對，我們也希望能贏得他們尊重。」

如果使用者想從資料集中刪除自己的照片，或避免其用於未來的電腦視覺研究，該公司還列出了一系列預防措施對使用者進行指導。

這些建議包括將照片設為私有、更改其附帶的使用許可，以及在照片上添加一個標籤，以表明他們不希望將其用於電腦視覺研究。

Luebke說:「我認為很多人要麼不在乎，要麼會很樂意他們的照片被用在StyleGAN這樣的研究上。但如果有人不喜歡這樣，那也有辦法退出。」

▲ 這張韋斯特的自拍照和其他的照片一起被編入IBM的資料集中一些研究人員認為，人們應該透過授權，自己決定圖片是否可以用於電腦視覺或人工智慧研究。