他們在OpenAI當「紅軍」整天攻擊GPT-4,發現了哪些問題?

他們在OpenAI當「紅軍」整天攻擊GPT-4,發現了哪些問題?

ADVERTISEMENT

據報導,在安德魯・懷特(Andrew White)獲得 GPT-4 的使用權之後,他使用這ChatGPT提出了一種全新的神經毒劑。

作為大學的化工教授,懷特是 OpenAI 去年聘請的 50 名專家學者之一。在 6 個月的時間裡,他身為「紅軍」的一員,對這GPT-4模型進行了「定性探索和對抗性測試」,簡單的說,就是想盡辦法去攻擊、破解它。

懷特表示,他使用 GPT-4 的建議,產生了一種可作為化學武器的化合物,並使用「外掛」為這個模型提供新的資訊源,例如給它學術論文和化學品製造商名錄。隨後,這個聊天機器人找到了一個方式來製造這種有毒的化合物。

他說:「我認為,ChatGPT將使每個人都獲得更快速、更準確地工具去從事化工行業。但這也使得人們會以更危險的方式去開展化學活動,給生活帶來了很大的風險。」

利用「紅軍」探索GPT-4的危險性

事實上,「紅軍」的目的就是探索並瞭解在社會上部署先進人工智慧系統會造成什麼樣的風險,解決公眾這方面的擔憂。他們在工作中負責提出探索性的或是危險的問題,以測試這個工具在回答問題時的詳細程度。

OpenAI 想要探索模型毒性、偏見和歧視等問題。因此,「紅軍」就謊言、語言操縱和危險的科學常識,對GPT-4進行了測試。他們還評估了模型協助和教唆剽竊的情況、金融犯罪和資訊安全攻擊等違法活動的可能性,以及模型可能會如何威脅國家安全和戰場通訊。

當然不是隨便什麼人都可以來當「紅軍」。他們是由一系列專業人士組成,包括學者、教師、律師、風險分析師和資訊安全研究員,主要來自美國和歐洲。

這些人的發現會回傳給 OpenAI,在更大規模向一般人推出 GPT-4 之前,「紅軍」提供的意見會被用於模型的重新訓練,以解決當下 GPT-4 的問題。

在幾個月的時間裡,專家們每人花了 10 到 40 個小時去測試這個模型。多名受訪者表示,他們的工作時薪約為 100 美元。

他們在OpenAI當「紅軍」整天攻擊GPT-4,發現了哪些問題?

紅軍發現了哪些問題?

在這些身為紅軍的許多人中,都對語言模型的快速發展提出了擔憂,尤其是通過外掛將語言模型與外部知識源連接在一起可能造成的風險。

GPT-4「紅軍」的成員、瓦倫西亞人工智慧研究所教授何塞・艾爾南德斯-奧拉洛(José Hernández-Orallo)表示:「今天我們把系統連線網路的能力拿掉,這意味著它不再學習,也不再有記憶。但如果我們讓系統繼續有機會去連接網際網路,那麼會怎樣?這可能會成為一個與世界相連的非常強大的系統。」

OpenAI 表示,該公司認真對待安全性問題,並在發佈前對外掛進行了測試,並將隨著使用者越來越多繼續定期更新 GPT-4。

技術研究員羅亞・帕克薩德(Roya Pakzad)使用英語和波斯語的輸入資訊對該模型進行了性別、種族偏見等測試,例如對於佩戴頭巾問題。

帕克薩德表示,這個工具對非英語母語人士能帶來幫助,但也顯示出AI對邊緣人群的刻板印象,即使隨後更新的版本也是如此。

她還發現,在用波斯語測試該模型時,聊天機器人用捏造的資訊做出回覆,即出現所謂「幻覺」的情況更糟糕。與英語相比,在波斯語回覆中捏造名字、數字和事件的比例更高。

她表示:「我擔心,語言多樣性和語言背後的文化會受到損害。」

來自奈羅比的律師、唯一一名非洲測試人員博魯・戈洛(Boru Gollo)也注意到了模型的歧視性語氣。

他說:「有一次,我在測試這個模型時,它表現得像個白人在跟我說話。在問到某個特定群體時,它會給一個有偏見的意見,或是在回答中出現歧視。」OpenAI 承認,GPT-4 仍有可能表現出偏見。

「紅軍」的成員還從國家安全的角度對模型進行了評估,但他們對於新模型的安全性有著不同的看法。美國外交關係委員會研究員勞倫・卡恩(Lauren Kahn)表示,當她開始研究,如何將這項技術用於對軍事系統的攻擊時,她表示「沒有想到模型的回答會如此詳細,以至於我只需要做一些微調即可」。

不過,卡恩和其他資訊安全測試者發現,隨著測試時間變長,模型回答的內容逐漸變得安全。OpenAI 表示,在推出 GPT-4 之前,曾訓練過這個模型拒絕回答惡意的資訊安全問題。

「紅軍」的許多成員表示,OpenAI 在發佈 GPT-4 之前已經進行了嚴格的安全評估。卡內基梅隆大學語言模型毒性專家馬爾滕・薩普(Maarten Sap)說:「他們在消除這些系統中的顯性毒性方面做得非常好。」

薩普研究了該模型對不同性別的描述,發現模型的偏見反映的是社會差異。但他也發現,OpenAI 做出了一些積極的選擇來對抗偏見。

公眾對GPT-4的擔憂

然而自推出 GPT-4 以來,OpenAI 一直面臨著廣泛的批評。例如,有技術倫理組織向美國聯邦貿易委員會(FTC)投訴,稱 GPT-4「有偏見和欺騙性,對隱私和公共安全構成風險」。

最近,該公司推出了一項名為 ChatGPT 外掛的功能。透過該功能,Expedia、OpenTable 和 Insta 等合作夥伴應用可以讓 ChatGPT 訪問它們的服務,允許 ChatGPT 代表使用者下單。

「紅軍」的人工智慧安全專家丹・亨德里克斯(Dan Hendrycks)表示,這些外掛可能會讓人類使用者「脫離整個鏈路」。

「如果聊天機器人可以在網上發表你的私人資訊,檢視你的銀行帳戶,或者派警察到你家裡去,那會怎麼樣?總體而言,在讓人工智慧掌握網路的力量之前,我們需要更有力的安全評估。」

受訪者還警告說,OpenAI 不能僅僅因為其軟體是線上的就停止安全測試。喬治城大學安全和新興技術中心的希瑟・佛雷斯(Heather Frase)測試了 GPT-4 協助犯罪的能力。她表示,隨著越來越多人使用這項技術,風險將繼續擴大。

她表示:「你做運行測試的原因是,一旦它們在真實環境中被使用,行為就會不同。」她認為,應該建立一個公共記錄本,報告由大型語言模型引發的事故。這類似於資訊安全或消費者欺詐報告系統。

勞工經濟學家及研究員薩拉・金斯利(Sara Kingsley)建議,最好的解決方案是清楚地宣傳這方面的危害和風險,「就像食品上的營養標籤」。

「關鍵是要形成一個框架,知道經常出現的問題是什麼。這樣你就可以有一個安全閥。這也是為什麼我認為,這項工作將會永久性的持續下去。」

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則