人工智慧不是自學成長,它們背後有一群辛勞付出的「老師」

人工智慧不是自學成長,它們背後有一群辛勞付出的「老師」

人工智能領域每天都在上演著日新月異的發展和進步。然而,在世界上許多國家(其中包括中國),都存在一種你可能不知道的新興職業。他們負責教授人工智慧系統學習,他們是一群最可愛的人,有人也稱他們為數位富士康「一線工人」。這篇翻譯自《紐約時報》的文章,主要透過一家總部位於印度的公司,介紹人工智慧不是自學成長,它們背後有一群辛勞付出的「老師」的事實。

iMerit公司位於印度加爾各答的辦公室。圖片來源:Rebecca Conway for The New York Times

印度奧里薩邦的首府布巴內什瓦爾,離孟加拉灣大約40英里(合約65公里)的距離。在布巴內什瓦爾的市中心,納米塔·普拉旦(Namita Pradhan)正坐在自己的工作台前,眼睛注視著面前螢幕中的一段影片。這段影片,錄製於地球彼端的某個醫院。

而這段影片的內容,則是某個病人結腸內部的畫面。普拉旦做的工作,是透過影片去發現息肉。息肉是大腸中向腸腔突出的贅生物,它可能會引發癌症的出現,它看起來有點像似一個小膿包。

當普拉旦在影片中找到息肉過後,她會立刻透過滑鼠和鍵盤,在這個小膿包周圍畫一個數位「邊界線」,從而將它標註出來。

普拉旦並不是醫學專業出身,但她做的工作,卻是在教人工智慧系統的「老師」,直到人工智慧系統順利畢業並且可以完成醫生的工作職責為止。

普拉旦的「教室」,位於一棟低矮建築的四樓。在這個「教室」裡,除了普拉旦,還有其他幾十位在做同樣工作的印度青年。而在他們正式就職之前的培訓中,他們學習瞭​​如何去標註各種數位圖片的方法,並且能夠精準地標註出圖片上的任意內容,比如現實街景中的交通標誌和行人,以及衛星地圖中的工廠和油罐車等。

許多科技行業的人士可能會告訴你,人工智慧必然是這個行業的未來。得益於機器學習的應用於發展,如今的人工智慧也是在經歷日新月異的變化。

然而,在科技領域掌握著發言權的人士,卻很少提及這些快速發展背後的勞動密集型過程。實際上,人工智慧它不是自學成才的,他們都是有人教的,而且教它們的人,甚至多到可以用不計其數來形容。

在人工智慧系統開始學習之前,首先必須要向其輸入透過人工標註而成的資料,正如前文提到的通過人工來圈定結腸息肉的例子。這項工作至關重要,無論是無人駕駛領域,監控系統領域還是自動化醫療健康領域,人工智慧的發展都離不開這項工作。

基本上所有的科技公司都對這項工作避而不談。然而,由於他們儲存了大量的個人隱私訊息,甚至還會和外界第三方分享這些資料訊息,因此也有越來越多的關注隱私的活躍人士紛紛站了出來。

今年上半年,透過努力,我爭取到了一次瞥見這個故事背後的機會。這樣的難得機會,在矽谷也通常都是欲求而不得的。

從最開始的印度奧里薩邦的布巴內什瓦爾,到最後的美國路易斯安那州的紐奧良市,我一共實地到訪過五個這樣的辦公室。這些辦公室裡,所有的工作人員都在做著無休無止的重複工作——教人工智慧系統學習各種標註資料。而他們的「教學」系統,都來自於一家名叫iMerit的公司。

這些辦公室裡,有許多像普拉旦一樣的結腸檢查員。當然,其中也有負責其它「教學」任務的「老師」,比如真實街景辨識員,或者語言及符號專員等。

這是不是一位行人呢?這到底是雙黃線還是點狀白實線呢?將來有一天,無人駕駛汽車必須要知道這些區別。

iMerit公司的員工必須掌握資料標註技能才能就職。圖片來源:Rebecca Conway for The New York Times

我在這些辦公室中親眼所見的,並沒有一種看見未來的超前感覺。這些辦公室所在的建築,原本都是一些話務呼叫中心或支付處理中心。

其中一間辦公室,位於印度西孟加拉邦首府加爾各答城市西端的低收入群體居民區,而辦公室所在的那棟建築,是一棟破舊的曾經用作公寓的樓房。而這棟建築的周邊,則是熙熙攘攘的行人、臨街叫賣的商販以及穿梭自如的突突車。

印度的其它城市,也有和布巴內什瓦爾一樣的辦公室。此外,在中國、尼泊爾、菲律賓、美國以及非洲東部幾個國家等地,也存在這些辦公室。這些辦公室裡,坐著成千上萬的「老師」。他們打卡上班,唯一的工作職責就是教人工智慧系統學習。

此外,還有成千上萬名遠端辦公的「老師」,他們在家完成「教學」工作,同樣也是完成圖片資料標註工作。大多數情況下,他們都是藉助於亞馬遜勞務眾包平台Amazon Mechanical Turk(AMT)提供的服務。在AMT平台上,任何人都可以發起數位任務。無論是來自哪個國家的「老師」,都可以獨自認領並完成相應工作。然而,標註資料訊息這份工作的報酬並不是很高。

總部位於印度的iMerit公司,服務於科技及汽車行業的眾多巨頭客戶。起初的時候,因為履行保密協議的原因,他們曾經婉言拒絕了公開其客戶訊息的請求。但最近,據iMerit公司透露,他們全球九個分公司共計約2000多名員工都在奮力為亞馬遜的一項名叫SageMaker Ground Truth的線上資料標註服務而做貢獻。而在這之前,他們也曾公開地透露稱,微軟公司也是他們的客戶。

在iMerit公司,辦公室牆上黏貼著員工藝術作品以及激勵文字。圖片來源:Rebecca Conway for The New York Times

將來有一天,但我們還不知道到底是哪一天,人工智慧肯定會挖空整個人才市場。但就現在而言,它卻帶來了相對薪資較低的工作機會。

2018年,整個資料標註市場的規模超過了5億美元。據市場研究機構Cognilytica預測,到2023年時,這個市場的規模將超過12億美元。單就資料標註而言,這項工作佔據了發展人工智慧技術所耗費時間的80%。

那麼,這項工作帶有剝削性質嗎?對於這個問題的答案,它取決於你所在的地區和城市,以及你所做的工作。在印度,這份工作可以讓你步入中等水準的生活;在紐奧良市,它可以算作一份足夠體面的工作。而對於「個體承包商」而言,它更像是一條死胡同。

圖片來源:iMerit

要勝任這份工作,還必須提前學習有關必備的技能。比如,透過影片或醫學掃描影像辨識某種疾病的標誌,或者在針對圖片某個元素勾畫數位圓圈的時候保持持續穩定的手部力量等。在某些情況下,還可能會涉及醫學手術影片以及色情或暴露圖像等內容,​​而這些內容可能就會令人不適了。

「當你首次看到這些內容的時候,你會覺得非常不安。你甚至會有放棄這份工作的想法。」在亞馬遜AMT平台參與資料標註工作長達數年的克莉絲蒂·米蘭(Kristy Milland)表示。

「但有些人如果放棄了這份工作,可能就會失去收入來源。所以又只好默默地忍受著。」米蘭補充說。

在動身前往印度之前,我試著透過某眾包服務平台去標註圖片。我嘗試過在耐吉logo周圍勾畫數位邊界線,也嘗試過辨識「不適合工作場所(Not Safe for Work,簡稱NSFW)」的圖片。我發現,我可能真的很難勝任這份工作。

在開始工作之前,我必須要透過一項測試。單單就這項測試,都差點讓人崩潰,而且我連續失敗了三次。整個體驗過程都讓人非常沮喪,我全程都需要在不同的圖片中標註各種訊息,以便人們可以立即上網搜尋相關零售商品。此外,在這個過程中,我還耗費了大量時間去辨別圖片中的裸體女性和性玩具等冒犯內容,並將他們標註為「NSFW」。

對人工智慧研究人員而言,他們希望能夠建立一套可以從少量資料中學習的系統。但從目前可以預見的未來來看,人力勞動仍然是不可獲取的因素。

「這是一個急劇擴張的世界,一個隱藏在科技背後的世界。」供職於微軟公司的人類學家、著有《幽靈工作》(Ghost Work)一書的瑪麗·格雷(Mary Gray)說,「如果要將人類排除在外,則是不太現實的事情。」

員工離開iMerit公司布巴內什瓦爾分公司所在地。圖片來源:Rebecca Conway for The New York Times

廟宇之城

奧里薩邦的首府布巴內什瓦爾,被稱作「廟宇之城」。在這座城市西南邊的路邊市場,路旁到處林立著巨型石塔堆砌而成的古印度廟宇。這些廟宇最早可以追溯至公元1000年左右。城市的主要幹道上,許多路面都沒有鋪砌石磚。道路的中央,除了摩托車、小汽車以及貨車之外,還有來去自如的乳牛和野狗。

布巴內什瓦爾有大約83萬人口,也是一個快速發展的數位勞動力中心。從寺廟出發,開車約15分鐘後,可以抵達靠近市中心的完整鋪砌的路面。在這條路上,一座四層樓高的白色建築坐落在一堵牆的背後。在這棟建築裡,有三個堆滿長排桌台的房間,每個房間的桌上,都放置著整齊又緊密排放的電腦顯示螢幕。這就是普拉旦日常工作的地方。

今年24歲的普拉旦,在城外的郊區長大。她在本地的一所職業學院修讀了生物和其它一些學科,畢業後就來到了iMerit公司上班。她的這份工作,是已經在iMerit上班的哥哥推薦給她的。在平常工作日的時候,普拉旦住在公司附近的一間青年旅社。每到週末的時候,她就會搭乘巴士回家。

我是今年一月份去到普拉旦所在的辦公室的,當時氣候還比較溫和。大部分現場的女性員工,都身穿著印度傳統服飾——亮紅色的莎麗,以及長長的金耳環。當天,普拉旦穿著一件綠色的長袖衫,搭配著黑色褲子和白色繫帶鞋。當時,她正在為美國某位客戶標註影片訊息。

在日復一日的八小時工作時間中,這位24歲的羞怯女子會一直觀看十多個腸鏡檢查影片,並且不停地回放,仔細觀察每一幀的內容。

每隔一段時間,普拉旦都能夠找到她想找的內容,然後她會用數位「邊界框」將它們標註出來。她畫了上百個這樣的邊界框,同時標註出息肉以及其它疾病特徵等訊息,比如血栓及炎症等。

納米塔·普拉旦(Namita Pradhan,右二)和同事一起工作的場景。圖片來源:Rebecca Conway for The New York Times

普拉旦當時正在服務的客戶,是美國的一家公司。iMerit要求她不得透露客戶姓名。根據普拉旦教給人工智慧系統學習的內容,客戶最終可以結合這套系統辨識各種醫療狀況。而影片中接受腸鏡檢查的病人,可能並不一定知道這個影片的存在。普拉旦也不知道它們從何而來。當然,iMerit也不知道。

在為期七天的線上影片電話期間,普拉旦跟來自美國加利福尼亞州奧克蘭市一位不常執業的醫生學會了這項任務。這位醫生也參與了對iMerits各分公司眾多員工的培訓。但有些人卻質疑稱,這種標註工作是否應該由經驗豐富的醫生和醫學生自己去做?

美國康奈爾大學下屬的威爾康奈爾醫學院(Weill Connell Medicine)以及紐約長老會醫院(NewYork-Presbyterian)的放射科醫生喬治·施(George Shih)博士說,這項工作,需要「有醫學背景,同時具備解剖學和病理學相關知識的人」來完成。施博士也是創業公司MD.ai.的聯合創始人,MD.ai.公司的創立初衷是幫助組織機構建立醫療關愛人工智慧系統。

圖片來源:iMerit

在跟普拉旦聊起她的工作時,普拉旦稱這份工作「很有趣」,但同時也很累。至於影片中的內容,「最開始我覺得很噁心,但後來就慢慢習慣了。」普拉旦說。

她曾標註過的圖片非常可怕,但其可怕程度還比不上iMerit其他員工處理的圖片。他們的客戶也在構建自己的人工智慧系統,用來辨識並刪除社群網路和其它線上服務過程中不想看見的圖片,比如與色情、暴力和其它有害成分有關的圖片。

對iMerit的員工而言,這份工作可能會讓他們感到極度不適。因此,iMerit公司也在嘗試限制他們要瀏覽的各種訊息。

人工智慧創業公司Clarifai是iMerit的深度合作夥伴。其負責資料標註的利茲·奧沙利文(Liz O'Sullivan)表示,色情和暴力內容經常都與許多更加有害的圖片混在一起。在標註這類圖片的時候,員工都會在單獨的房間中完成相關工作,以免引起其他員工的不適。

奧沙利文還說,也有一些資料標註公司,會限制員工標註這類圖片的數量。

「長時間做這樣的工作過後,如果因此患上創傷後壓力症候群(PDSD)或者遭遇更嚴重情況的話,我不會覺得一絲意外。」奧沙利文說,「你必須要給員工交叉安排其它類型的工作,否則他們從頭到尾都可能在處理色情和斬首有關的內容。」

在一份官方聲明中,iMerit表示稱,他們不會強求員工處理色情及暴力有關的材料,只會在有助於改善監控系統的情況下才會承擔這方面的工作。

據iMerit公司某位高官透露,普拉旦和她的同事們每月每人可以為公司帶來800美元至1000美元的營收,而她們個人只能從中獲得150美元至200美元的收入回報。

按照美國的收入標準,普拉旦的收入是非常低的。但對她以及身邊同事而言,這份收入基本和資料錄入所獲得的回報持平。

單調無聊的工作,但足以能讓她支付房費

iMerit公司員工普拉森吉特·白迪亞(Prasenjit Baidya)以及其妻子巴娜莉·派克(Barnali Paik)在白迪亞兒時的家中。圖片來源:Rebecca Conway for The New York Times 

普拉森吉特·白迪亞(Prasenjit Baidya)從小就在一個農場長大。這個農場距離印度東海岸西孟加拉邦最大城市加爾各答約30英里(合約48公里)。白迪亞的父母以及其大家庭仍然居住在他兒時的家中,這個磚塊堆砌的房子建於19世紀初。在房子周邊的田地裡,他們種植了水稻和向日葵,同時在屋頂鋪著的地毯上曬乾收穫的種子。

白迪亞是家裡第一個接受職業學院教育的人。在校期間,他也上過電腦課,但他並沒有從這節課上學到更多有用的知識和技能,而且當時平均25個學生輪流使用著一台電腦。畢業以後,白迪亞參加了非營利組織Anudip提供的培訓課程。透過這些課程,他又進一步補習了電腦技能。他的一位朋友給他推薦了這個課程,而他每個月也需要支付5美金的費用。

在印度境內,Anudip開設了英語和電腦培訓課程,每年可以培訓大約2.2萬人。2013年,Anudip與iMerit開啟了姊妹業務運營。從Anudip參加培訓過後,可以直接進入iMerit上班。透過Anudip,白迪亞成功地在iMerit公司位於加爾各答的辦公室獲得了一份工作。他的妻子巴娜莉·派克(Barnali Paik)在他的隔壁村莊長大,她也和他一起進入了iMerit公司。

過去六年以來,iMerit總計僱用了超過1600名在Anudip接受培訓的員工。目前,該公司一共有約2500名員工。其中,80%的員工都來自於月收入低於150美元的家庭。

iMerit公司成立於2012年,目前仍然是一家私營企業。入職iMerit公司的員工,主要從事抄錄音訊檔案內容或辨識圖片中的物體等數位工作。全球各地的企業,只要向iMerit公司支付相應服務款項,就可以獲得其員工的服務支持。如今,他們的員工越來越多地在協助客戶搭建人工智慧系統。

「我們希望把低收入背景的人帶進科技領域,並且從事和科技相關的工作。」Anudip和iMerit公司的創始人拉達·巴蘇(Radha Basu)說。

在創立這兩家公司之前,巴蘇曾長期就職於矽谷。她之前在科技巨頭思科和惠普等公司任職。離開矽谷後,巴蘇和她的丈夫迪帕克(Dipak)在印度聯合創立了這兩家公司。

在iMerit上班的這些員工,平均年齡為24歲。和白迪亞一樣,大多數員工都來自農村地區。iMerit公司最近又在加爾各答西邊的穆斯林聚居區Metiabruz新設了一間辦公室。在這個辦公室裡,公司僱傭的基本上都是穆斯林婦女。在她們所居住的熙熙攘攘的街區,對於女性外出上班賺錢的現象,大多數家庭都反映出並不情願的態度。她們的日常工作中,並不會涉及色情和暴力有關的材料。

位於加爾各答Metiabruz穆斯林聚居區的iMerit辦公室,員工正在接受就職前培訓。圖片來源:Rebecca Conway for The New York Times

最初,iMerit只是專注於簡單的任務,比如整理歸類線上零售網站的產品清單,以及審查社群媒體上的文章。但如今,她們也開始轉移到了教人工智慧系統學習等工作中。

對於像iMerit這類型的公司而言,他們的成長發展,反映了從像亞馬遜AMT平台等眾包服務中逐漸脫離出來的變化趨勢。因此,對於員工的培訓方式及有關工作的完成方式,iMerit以及其客戶有更大的發言權。

如今,白迪亞已經晉升成為了一名經理。他負責監管為美國一家大客戶提供用於後期無人駕駛汽車培訓的實景街道資料標註服務。他所帶領的團隊,主要負責分析並標註數位照片以及透過雷射測距技術捕捉的3D圖像。日常的工作中,團隊成員日復一日地圍繞汽車、行人、交通標誌以及電線等內容周圍畫「邊界框」。

圖片來源:iMerit

白迪亞說,這份工作可能會變得單調乏味,但它同時也為他提供了一種本來可能無法享有的生活。他和它的妻子最近在加爾各答購買了一套公寓。妻子每天步行都可以達到她上班的辦公室。

「個人生活的改變,就像是一場夢一樣。在這場『夢』裡,我的財務狀況得到了改善,同時還提升了個人經歷和英語水準。」白迪亞說,「這就是我獲得的機會。」 

奧斯卡·卡貝薩斯(Oscar Cabezas)在iMerit位於紐奧良市的辦公室。圖片來源:Bryan Tarnowski for The New York Times

整天都在聽別人咳嗽

從印度回來的幾週後,我乘坐Uber穿過了紐奧良市區。在那之前的18個月,iMerit在紐奧良設立了分公司,其辦公室就在梅賽德斯賓士穹頂體育館的對面。

隨後,美國一家大型科技公司需要對其家居數位助理產品的西班牙語版本進行資料標註。於是,這家公司將資料發給了剛剛在紐奧良落地的iMerit公司。

2005年卡特麗娜颶風過後,數百名建築工人和其家人一道,搬到了紐奧良市,共同幫助重建這座城市。重建完畢後,許多人都選擇留了下來。其中,有不少人的母語是西班牙語。於是,iMerit公司開始將他們招募至旗下。

23歲的奧斯卡·卡貝薩斯(Oscar Cabezas),之前和他的母親一起從美國南卡羅來納州首府哥倫比亞搬到了紐奧良市。卡貝薩斯的繼父在一個工地上找到了工作。大學畢業後,卡貝薩斯直接進入了iMerit公司,當時公司剛好準備開始協助客戶對那款西班牙語版的家居數位助理產品進行資料標註。

卡貝薩斯標註的訊息涵蓋了廣泛的領域,包括推特推文以及餐廳評論等,同時還要辨識人物、地點並找出可能存在歧義的地方。比如,在危地馬拉(拉丁美洲國家),「Pisto」的意思是「錢」;但在墨西哥,它卻指「啤酒」。「每天我都會接到新的項目。」卡貝薩斯說。

在紐奧良市落地的iMerit公司,業務很快就拓展至了其它領域,他們的客戶對像都希望將其資料保留在美國境內。其中,出於對法律和安全因素的考慮,有一些項目的資料必須保留在美國境內。

42歲的格蘭達·赫南德斯(Glenda Hernandez)出生於危地馬拉。她說,她非常懷念之前從事的那份家居數位助理產品的工作。她非常喜歡閱讀。她曾在網上為大型出版社寫過書評,以免費換得一些書籍。她也非常享受用西班牙語來閱讀,並且還可以從中獲得一定的報酬。

格蘭達·赫南德斯(Glenda Hernandez),圖片攝於iMerit紐奧良市辦公室。圖片來源:Bryan Tarnowski for The New York Times

「它像是我的孩子一樣。」赫南德斯回憶那個任務時說道。

對赫南德斯而言,她對圖片標註或者標註某些會涉及人們咳嗽的錄音等任務並不是很感興趣。但那卻是一種建立人工智慧系統的方法,建成之後,它可以用來在電話溝通中辨識相應疾病的症狀。

「整天都聽別人的咳嗽聲,實在是太噁心了。」赫南德斯說。

微軟人類學家格雷說,這份工作很容易被誤解。雖然整天一直聽別人咳嗽可能會覺得噁心,但這卻是醫生的現實生活寫照。「我們並不認為這是單調乏味的苦差事。」格雷說。

赫南德斯的工作,旨在幫助醫生更好地做好其本職工作。或許有一天,甚至能夠取代他們的工作。對此,她表示非常自豪。

過去能維持生計,但現在不行了

來自多倫多的克莉絲蒂·米蘭(Kristy Milland),她在亞馬遜AMT平台上工作時間長達14年,主要負責資料標註工作。圖片來源:Arden Wray for The New York Times 

2005年,克莉絲蒂·米蘭在亞馬遜AMT平台上註冊並認領了第一份工作。她當時26歲,和丈夫一起住在多倫多。她的丈夫是當地一家倉庫的管理員。對米蘭來說,AMT平台是一個賺外快的地方。

她的第一項任務是亞馬遜自己發布的任務。米蘭的筆記型電腦會彈出某店舖的三張圖片,然後需要她選擇顯示了店舖前門的那張圖。當時,亞馬遜正在為谷歌提供類似谷歌街景相似的線上服務,因此其需要外部勞動力的幫助,從而挑選最符合的照片。

每一次點擊,米蘭都可以成功獲得3美分。每分鐘大概能成功點擊六次,因此可以為她帶來約18美分的收入。2010年,米蘭的丈夫丟失了工作,米蘭的這份兼職零工,也變成了她的全職零工。在那以後的兩年裡,她每週都會工作6至7天,有時候一天工作甚至超過17個小時。在這種工作狀態下,她每年大約能獲得約5萬美元的收入。

「當時靠這筆收入能維持生計,但現在不行了。」米蘭說。

當時,米蘭的工作並不會涉及人工智慧。比如,她曾經做過的另一項任務,是從各種抵押貸款文件中提取訊息,或者重新手動輸入名片掃描件的錯誤名稱及地址。有時候,一個小時只能賺1美元。

圖片來源:iMerit

在2010年左右,米蘭也開始為人工智慧項目標註資料了。她曾標註過的資料,也多種多樣,包括推特上出現的殘暴圖像(推特當時在建立一套人工智慧系統,旨在快速有效地刪除社群媒體上的殘暴圖像),或者在中東某處拍攝的空中鏡頭資料(可能軍方以及其合作夥伴在建立某人工智慧系統,從而去辨識無人機偵察目標)。

米蘭還提到,如果是美國科技巨頭委託的項目,通常都會獲得比普通項目更高的薪酬,大約每小時15美元。但遺憾的是,這份工作並不提供醫療保險或帶薪假期,而且長時間做這份工作可能會讓人變得極度不安,甚至麻木不堪。她還稱之為「極其可怕的剝削」。對此,亞馬遜卻拒予置評。

自2012年來,米蘭一直都是一個名叫TurkerNation的組織中的成員。這個組織旨在改善數千名從事類似工作的人的工作條件。今年4月,在這份工作上做了14年後,現年40歲的米蘭終於放棄了這份零工。

如今,她進入了法學院唸書。她丈夫的收入,交每個月的固定房租都還差600美元,而且還不包含水電費。因此,米蘭說,她們也準備開啟負債人生了。但無論怎樣,米蘭都不會再回去做標註資料的工作。

「這是一個反烏托邦的未來。」米蘭說,「我已經受夠了。」 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則