Google Gemini文生圖功能緊急關閉:種族、性別大錯亂,口碑一夜崩壞

Google Gemini文生圖功能緊急關閉:種族、性別大錯亂,口碑一夜崩壞

Gemini 好像終於被玩壞了。去年年底,Google Gemini 震撼了業界,它是Google“最大、最有能力和最通用”的 AI 系統,號稱第一個原生多模態大型語言模型,能力超越 GPT-4,也被認為是Google反擊微軟和 OpenAI 的強大工具。

對此,在 2 月 8 日,Google還把自家對標 ChatGPT 的服務 Bard 更名為 Gemini,以著重體現新使命,上週Google還火速更新了 Gemini Pro 1.5 版。

結果,推出不到一個月,這個 Gemini 就翻車了。

多離譜呢,作為一個多模態的生成大型語言模型,Gemini 生成的伊隆・馬斯克是這樣的:

Google Gemini文生圖功能緊急關閉:種族、性別大錯亂,口碑一夜崩壞

臉型神態都很傳神,只是有個大問題:怎麼成了黑人?

又有人嘗試讓 Gemini 畫一幅「1940 年代德國領導人」的圖,結果 AI 給出了這麼一張:

Google Gemini文生圖功能緊急關閉:種族、性別大錯亂,口碑一夜崩壞

社群網路上的眾多網友們還提供了一些 Gemini 生成維京人、教皇的圖片樣本。我們可以看到有一名身著教皇服裝的亞洲女性,但歷史上所有教皇都是男性擔任的。

Google Gemini文生圖功能緊急關閉:種族、性別大錯亂,口碑一夜崩壞

總之,眾多使用者在使用人像生成服務時發現,Gemini 似乎拒絕在圖像中描繪白人,以至於生成了不少違背基本事實(性別、種族、宗教等)的圖片。

以往的圖像生成模型大多被詬病生成人物圖像以「白人」為主,而 Gemini 矯枉過正了?

在 reddit 的討論中,網友們也開始玩起了梗,比如讓 Gemini 生成個“鋼鐵人”小勞柏道尼:

Google Gemini文生圖功能緊急關閉:種族、性別大錯亂,口碑一夜崩壞

你就說是不是一視同仁吧。

然而,Gemini 也不是一直都這麼偏心,有時它生成的圖像中的人物就成了白人。例如克拉倫斯・托馬斯(Clarence Thomas),美國最高法院大法官,Gemini 生成的結果是這樣的:

Google Gemini文生圖功能緊急關閉:種族、性別大錯亂,口碑一夜崩壞

然而,他實際上是非裔。

Clarence Thomas 本人的照片。

怎麼一到法官這種特殊職業,Gemini 的偏見就調轉了 180 度呢?

這些圖片有真有假,像病毒一樣在社群媒體上迅速傳播,馬斯克本人的關注進一步擴大了事件影響。他措辭嚴厲表示,Google在文生圖上玩過頭了。

隨著問題越來越大,很多 AI 專家也紛紛開始發表自己的看法。圖靈獎獲得者 Yann LeCun 今天就表示他早有預料。

他表示,早在四年前,自己對 GAN 肖像超解析度的評論就受到了眾人的激烈反對。但一個明顯的事實是,圖像重建任務會受到訓練資料集統計的嚴重偏差影響。

Google Gemini文生圖功能緊急關閉:種族、性別大錯亂,口碑一夜崩壞

LeCun 還援引 AI 頂級會議 ECCV 2022 的一篇研究《Studying Bias in GANs through the Lens of Race》,其指出生成圖像模型的性能會受到訓練資料集中種族組成的影響。

該研究表明,生成圖像的種族成分成功繼承了訓練資料的種族成分,而且生成圖像的種族和品質也有所不同——註釋者始終更喜歡 AI 生成的白人圖像。

LeCun 轉推的帖子來自 Perplexity AI 首席執行長 Aravind Srinivas。後者表示,資料偏差讓模型的輸出出現了問題,Google在相反的方向上走得太遠了,以至於他們在 Gemini 中釀成大錯。

Google:我們錯了,承諾改進

在重壓之下,Google在本週四承認了 Gemini 圖像生成的問題。

Google Gemini文生圖功能緊急關閉:種族、性別大錯亂,口碑一夜崩壞

以下是Google知識與資訊高級副總裁 Prabhakar Raghavan 針對 Gemini 圖像生成“翻車”給出的最新回應:

「三週前,我們為 Gemini 對話應用程式(以前稱為 Bard)推出了新的圖像生成功能,其中包括建立人物圖像的功能。

很明顯,這個功能沒有達到預期。生成的一些圖像不精準甚至具有攻擊性。我們感謝使用者的反饋,並對功能未能正常運行感到抱歉。

我們已經承認了這個錯誤,並暫停了 Gemini 的人物圖像生成功能,同時我們正在開發改進版本。」

Google表示,Gemini 對話應用程式是一款獨立於Google的搜尋、底層人工智慧模型和其他產品的特定產品。其圖像生成功能建立在人工智慧模型 Imagen 2 的基礎上。

在為 Gemini 建構圖像生成功能時,Google對其進行了調整,以確保它不會落入我們過去在圖像生成技術中看到的一些陷阱,例如建立暴力或露骨的圖像,或對現實生活中存在的真人的描繪。

由於 Google 使用者來自世界各地,公司希望 Gemini 能為每個人提供良好的服務。在生成人物圖像時,使用者可能不僅僅只想生成一種種族(或任何其他特徵)的人物圖像。

如果你提示 Gemini 特定類型的人物圖像 - 例如“教室裡的黑人老師”、“帶著狗的白人獸醫”或特定文化、歷史背景下的人,使用者絕對應該得到一個精準反映人類要求的答覆。

那麼 Gemini 到底出了什麼問題呢?

簡而言之,有兩件事。首先,Google為確保 Gemini 顯示一系列人物而進行的調整未能考慮到顯然不應該顯示的範圍。其次,隨著時間的推移,該模型變得比開發者預期的更加謹慎,拒絕回答某些提示——會錯誤地將一些提示解釋為敏感提示。

這兩件事導致模型在某些情況下過度輸出,而在另一些情況下過度保守,從而導致 Gemini 的圖像生成功能出現了一些錯誤。

Google表示,“這不是我們的初衷。我們不希望 Gemini 拒絕創造任何特定群體的形象。我們不希望它創造出不精準的歷史圖像或任何其他圖像。因此,我們關閉了人物圖像生成功能,並將在重新打開它之前努力改進,這個過程將包括廣泛的測試。”

需要記住的一件事是,Gemini 是一種創造力和生產力工具,它或許並不總是可靠的,特別是在生成有關時事、不斷髮展的新聞或熱門話題的圖像或文字時,它可能會犯錯。眾做周知,幻覺是所有大型語言模型(LLM)都會面臨的挑戰,這需要不斷的努力改進。

我們不能保證 Gemini 不會偶爾產生令人尷尬、不精準或令人反感的結果,但我們可以保證,只要發現問題,我們就將採取行動。人工智慧是一項新興技術,在很多方面都有幫助,具有巨大的潛力,我們正在盡最大努力安全、負責任地推動它發展。

雖然伴隨著“Demo 加特技”、訓練資料抄百度文心一言等各種詬病指責,Gemini 仍然一直被Google寄予厚望,不過此次生成內容上的問題讓人們產生了非常不好的觀感,不知如何才能補救。

另一方面,這或許也體現了 OpenAI 一直強調安全性,及其建立 Red Teaming Network 的先見之明。

Gemini 這樣的大體量模型,能否很快彌補此種缺陷?

 

 

 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則