用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

隨著 GPT-4、Stable Diffusion 和 Midjourney 的爆火,越來越多的人開始在工作和生活中引入生成式 AI 技術。甚至,有人已經開始嘗試用 AI 生成的資料來訓練 AI 了。難道,這就是傳說中的「資料永動機」?

然而,來自牛津、劍橋、帝國理工等機構研究人員發現,如果在訓練時大量使用 AI 內容,會引發模型崩潰(model collapse),造成不可逆的缺陷。

也就是,隨著時間推移,模型就會忘記真實基礎資料部分。即使在幾乎理想的長期學習狀態下,這個情況也無法避免。

因此研究人員呼籲,如果想要繼續保持大規模資料帶來的模型優越性,就必須認真對待人類自己寫出來的文字。

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

論文地址:https://arxiv.org/ abs / 2305.17493v2

但現在的問題在於 —— 你以為的「人類資料」,可能並不是「人類」寫的。

洛桑聯邦理工學院(EPFL)的最新研究稱,預估 33%-46% 的人類資料都是由 AI 生成的。

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

訓練資料,都是「垃圾」

毫無疑問,現在的大型語言模型已經進化出了相當強大的能力,比如 GPT-4 可以在某些場景下生成與人類別無二致的文字。

但這背後的一個重要原因是,它們的訓練資料大部分來源於過去幾十年人類在Internet上的交流。

如果未來的語言模型仍然依賴於從網路上爬取資料的話,就不可避免地要在訓練集中引入自己生成的文字。

對此,研究人員預測,等 GPT 發展到第 n 代的時候,模型將會出現嚴重的崩潰問題。

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

那麼,在這種不可避免會抓取到 LLM 生成內容的情況下,為模型的訓練準備由人類生產的真實資料,就變得尤為重要了。

大名鼎鼎的亞馬遜資料眾包平台 Mechanical Turk(MTurk)從 2005 年啟動時就已經成為許多人的副業選擇。

科研人員可以發佈各種瑣碎的人類智慧任務,比如給圖像標註、調查等,應有盡有。

而這些任務通常是電腦和演算法無法處理的,甚至,MTurk 成為一些預算不夠的科研人員和公司的「最佳選擇」。

就連貝索斯還將 MTurk 的外包工人戲稱為「人工人工智慧」。

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

除了 MTurk,包括 Prolific 在內的眾包平台已經成為研究人員和行業實踐者的核心,能夠提供建立、標註和總結各種資料的方法,以便進行調查和實驗。

然而,來自 EPFL 的研究發現,在這個人類資料的關鍵來源上,有近乎一半的資料都是標註員用 AI 建立的。

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

論文地址:https://arxiv.org/ abs / 2306.07899v1

模型崩潰

而最開始提到的「模型崩潰」,就是在給模型投喂了太多來自 AI 的資料之後,帶來的能夠影響多代的退化。

也就是,新一代模型的訓練資料會被上一代模型的生成資料所污染,從而對現實世界的感知產生錯誤的理解。

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

更進一步,這種崩潰還會引發比如基於性別、種族或其他敏感屬性的歧視問題,尤其是如果生成 AI 隨著時間的推移學會在其響應中只生成某個種族,而「忘記」其他種族的存在。

而且,除了大型語言模型,模型崩潰還會出現在變分自編碼器(VAE)、高斯混合模型上。

需要注意的是,模型崩潰的過程與災難性遺忘(catastrophic forgetting)不同,模型不會忘記以前學過的資料,而是開始把模型的錯誤想法曲解為現實,並且還會強化自己對錯誤想法的信念。

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

舉個例子,比如模型在一個包含 100 張貓圖片的資料集上進行訓練,其中有 10 張藍毛貓,90 張黃毛貓。

模型學到的結論是,黃毛貓更普遍,同時會傾向於把藍毛貓想像的比實際更偏黃,所以在被要求生成新資料時可能會返回一些類似綠毛貓的結果。

而隨著時間的推移,藍毛的原始特徵在多個訓練 epoch 中逐漸被侵蝕,直接從藍色變成了綠色,最終再演變為黃色,這種漸進的扭曲和丟失少數特徵的現象就是模型崩潰。

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

具體來說,模型崩潰可以分為兩種情況:

1. 早期模型崩潰(early model collapse),模型開始丟失有關分佈尾部的資訊;

2. 後期模型崩潰(late model collapse),模型與原始分佈的不同模式糾纏在一起,並收斂到一個與原始分佈幾乎沒有相似之處的分佈,往往方差也會非常小。

與此同時,研究人員也總結出了造成模型崩潰的兩個主要原因:

其中,在更多的時候,我們會得到一種級聯效應,即單個不精準的組合會導致整體誤差的增加。

1. 統計近似誤差(Statistical approximation error)

在重採樣的每一步中,資訊中非零機率都可能會丟失,導致出現統計近似誤差,當樣本數量趨於無限會逐漸消失,該誤差是導致模型崩潰的主要原因。

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

2. 函數近似誤差(Functional approximation error)

該誤差主要源於模型中的函數近似器表達能力不足,或者有時在原始分佈支援之外的表達能力太強。

眾所周知,神經網路在極限情況下是通用的函數近似器,但實際上這種假設並不總是成立的,特別是神經網路可以在原始分佈的支援範圍之外引入非零似然。

舉個簡單例子,如果我們試圖用一個高斯分佈來擬合兩個高斯的混合分佈,即使模型具有關於資料分佈的完美資訊,模型誤差也是不可避免的。

需要注意的是,在沒有統計誤差的情況下,函數近似誤差只會發生在第一代,一旦新的分佈能被函數近似器描述出來,就會在各代模型中保持完全相同的分佈。

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

可以說,模型強大的近似能力是一把雙刃劍:其表達能力可能會抵消統計噪聲,從而更好地擬合真實分佈,但同樣也會使噪聲複雜化。

對此,論文共同一作 Ilia Shumailov 表示:「生成資料中的錯誤會累積,最終迫使從生成資料中學習的模型進一步錯誤地理解現實。而且模型崩潰發生得非常快,模型會迅速忘記最初學習的大部分原始資料。」

解決方法

好在,研究人員發現,我們還是有辦法來避免模型崩潰的。

第一種方法是保留原始的、完全或名義上由人類生成的資料集的高品質副本,並避免與 AI 生成的資料混合,然後定期使用這些資料對模型進行重新訓練,或者完全從頭訓練一遍模型。

第二種避免回覆品質下降並減少 AI 模型中的錯誤或重複的方法是將全新的、乾淨的、由人類生成的資料集重新引入訓練中。

為了防止模型崩潰,開發者需要確保原始資料中的少數派在後續資料集中得到公正的表徵。

資料需要仔細備份,並覆蓋所有可能的邊界情況;在評估模型的性能時,需要考慮到模型將要處理的資料,甚至是最不可信的資料。

隨後,當重新訓練模型時,還需要確保同時包括舊資料和新資料,雖然會增加訓練的成本,但至少在某種程度上有助於緩解模型崩潰。

不過,這些方法必須要內容製作者或 AI 公司採取某種大規模的標記機制,來區分 AI 生成的內容和人類生成的內容。

目前,有一些開箱即用的解決方案,比如 GPTZero,OpenAI Detector,或 Writer 在簡單的文字上工作得很好。

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

然而,在一些特殊的文字中,這些方法並不能有效執行。比如,在 EPFL 研究中有 ChatGPT 合成的 10 個總結,而 GPTZero 只檢測到 6 個是合成的。

對此,研究人員通過微調自己的模型來檢測 AI 的使用,發現 ChatGPT 在編寫本文時是最常用的 LLM。

對於建構的檢測 AI 資料的方法,研究人員利用原始研究中的答案和用 ChatGPT 合成的資料,訓練了一個定製的「合成-真實分類器」。

然後用這個分類器來估計重新進行的任務中合成答案的普遍性。

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

具體來講,研究人員首先使用真正由人類撰寫的 MTurk 回應,和合成 LLM 生成的回應,來訓練特定任務的「合成-真實分類器」。

其次,將這個分類器用於 MTurk 的真實回應(其中眾包人可能使用,也可能沒有依賴 LLM),以估計 LLM 使用的普遍性。

最後,研究者確認了結果的有效性,在事後比較分析擊鍵資料與 MTurk 的回應。

實驗結果顯示,這個模型在正確識別人工智慧文字方面高達 99% 的精準率。

此外,研究人員用擊鍵資料驗證了結果,發現:

- 完全在 MTurk 文字框中寫的總結(不太可能是合成的)都被歸類為真實的;

- 在貼上的總結中,提取式總結和 LLM 的使用有明顯區別。

用GPT-4來訓練GPT-5模型?研究警告:用AI 訓練 AI 有毒,會讓模型崩潰

具體來講,人工智慧生成的文字通常與原始總結幾乎沒有相似之處。這表明 AI 模型正在生成新文字,而不是複製和貼上原始內容的一部分。

「人類資料」很重要

現在,人們普遍擔心 LLM 將塑造人類的「資訊生態系統」,也就是說,線上可獲得的大部分資訊都是由 LLM 生成的。

使用綜合生成資料訓練的 LLM 的性能明顯降低,就像 Ilia Shumailov 所稱會讓模型患上「痴呆症」。

而這個問題將會變得更加嚴重,因為隨著 LLM 的普及,眾包工作者們已經廣泛使用 ChatGPT 等各種 LLM。

但對於人類內容創作者來說,這是一個好消息,提高工作效率的同時,還賺到了錢。

但是,若想挽救 LLM 不陷於崩潰的邊緣,還是需要真實的「人類資料」。

1. 人類資料在科學中仍然是至關重要的

2. 在合成資料上訓練模型可能會帶來偏見和意識形態永久化

3. 隨著模型變得流行和更好 / 多模態,採用率只會增加

總的來說,由人類生成的原始資料可以更好地表示世界,雖然也可能包含某些劣質、機率較低的資料;而生成式模型往往只會過度擬合流行資料,並對機率更低的資料產生誤解。

那麼,在充斥著生成式 AI 工具和相關內容的未來,人類製作的內容或許會比今天更有價值,尤其是作為 AI 原始訓練資料的來源。

參考資料:

 

 

 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則