Google為AI訓練找來的外包人員抱怨:很多話題我都不懂,怎麼判斷Bard說的對不對?

Google為AI訓練找來的外包人員抱怨:很多話題我都不懂,怎麼判斷Bard說的對不對?

Google為了讓聊天機器人Bard能夠答案更正確,除了呼籲公司員工進行內部測試,同時也委託了許多外部承包商進行評估。然而,一些外包人員爆料,他們根本沒有足夠的時間來驗證Bard的答案是否正確,最終只能憑藉猜測。

 

在OpenAI聊天機器人ChatGPT爆火後,Google也迅速跟進,在3月份推出了聊天機器人Bard的有限測試版。與ChatGPT類似,使用者可以向Bard提問或下達任務指令,Bard會給出類似人類的答覆。

目前,跨國AI訓練資料服務公司Appen的承包商正在幫助改進Google的聊天機器人。

這些人雖然沒有被明確告知他們被分配的任務與Bard有關,但是關於新任務的內部討論可以追溯到2月7日,也就是在Google首次發佈Bard的時候。Appen內部檔案顯示承包商需要審查AI聊天機器人所提供的回應品質。

Google為AI訓練找來的外包人員抱怨:很多話題我都不懂,怎麼判斷Bard說的對不對?

這些承包商通常會幫助評估Google搜尋演算法和搜尋結果中廣告的相關性,還會標記有害網站,使得這些網站不會出現在搜尋結果中。

四名接受採訪的外包人員表示,自1月份以來,他們的大部分工作已經轉向審查AI聊天機器人的提示。在評估過程中,外包人員們對聊天機器人的表現感到失望,並且表示,他們沒有足夠時間可以評估聊天機器人對提示的回應是否正確,有時只能猜測。不過,他們仍然可以拿到報酬。

沒有足夠時間

根據外包人員的指導文件,他們會收到使用者向AI聊天機器人發出的提示(例如提問、指令或陳述),以及兩個機器生成的回應。負責的人則必須幫助確認,哪一種回應更好。

他們還可以在文字框中詳細說明選擇的原因,以幫助聊天機器人學習在可接受的響應中尋找特定屬性。聊天機器人給出的回答應該連貫而精準,並引入最新資訊。

這些外包人員表示,他們被設定需要在一定的時間內來完成每項任務。比方說,審查提示的任務時間從60秒到幾分鍾不等,差異很大。這些人表示,如果他們不熟悉聊天機器人所談論的話題,比如區塊鏈等技術,就很難給AI的回應評分。

不過,不管談論的問題內容是難的或是簡單,是討論街頭美食或是量子力學,每項任務的報酬都是一樣的。一些人表示,即使他們意識到自己無法精準評估聊天機器人的反應,他們也會盡力「完成任務」。

一位評估人員說:「在短短60秒內,我沒有足夠的時間去瞭解我不懂的領域,所以我只能給出最好的猜測,這樣我就可以繼續工作和領取報酬。」

另一位負責的人員也表達了類似的觀點,「我們也希望能夠糾正出正確的答案、盡可能提供優質的機器人聊天體驗」但在進行評估之前,他們沒有足夠的時間來研究某些話題。他補充說:「老實說,我們中的很多人都快要崩潰了!」

要求改善訓練員的工作條件

目前,類似這樣的外包商,漸漸開始要求改善工作條件。

今年2月,許多外包人員前往Google總部Googleplex,向搜尋業務負責人Prabhakar Raghavan遞交了一份請願書,希望提高報酬。

這些外包人員隸屬於Appen的外派人員,每小時的薪資在14美元到14.5美元之間。而他們所支援的業務(搜尋和廣告)是Google的主要收入來源。

Alphabet工人工會已經表示支持這些外包人員,並會幫助他們採取行動,但該組織不能正式代表承包商與Google進行談判。

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則