研究找到GPT-4「變笨」原因：因任務汙染，LLM的泛化能力沒那麼強

變笨的本質是知識沒進腦子。自發佈以來，曾被認為是世界上最強大的 GPT-4 也經歷了多場「信任危機」。如果說2023年早些時候那次「間歇式降智」與 OpenAI 重新設計 GPT-4 架構有關，前段時間的「變懶」傳聞就更搞笑了，有人測出只要告訴 GPT-4「現在是寒假」，它就會變得懶懶散散，彷彿進入了一種冬眠狀態。

大型語言模型變懶、變笨，具體是指模型在新任務上的零樣本性能變差。儘管上述原因聽起來很有趣，但問題到底怎麼解決呢？

在最近的一篇論文中，加利福尼亞大學聖塔克魯茲分校研究者的新發現或可解釋 GPT-4 性能下降的深層原因：

「我們發現，在訓練資料建立日期之前發佈的資料集上，LLM 的表現出奇地好於之後發佈的資料集。」

它們在「見過的」任務上表現出色，而在新任務上則表現糟糕。這意味著，LLM 只是基於近似檢索的模仿智慧方法，主要是記憶東西，而沒有任何程度的理解。說白了，就是 LLM 的泛化能力「沒有說的那麼強」—— 基礎不紮實，實戰總有出紕漏的時候。

造成這種結果的一大原因是「任務污染」，這是資料污染的其中一種形式。我們以前熟知的資料污染是測試資料污染，即在預訓練資料中包含測試資料示例和標籤。而「任務污染」是在預訓練資料中加入任務訓練範例，使零樣本或少樣本方法中的評估不再真實有效。

研究者在論文中首次對資料污染問題進行了系統分析。

看完論文，有人「悲觀」地表示：這是所有不具備持續學習能力的機器學習模型的命運，即 ML 模型權重在訓練後會被凍結，但輸入分佈會不斷變化，如果模型不能持續適應這種變化，就會慢慢退化。這意味著，隨著程式語言的不斷更新，基於 LLM 的編碼工具也會退化。這就是為什麼你不必過分依賴這種脆弱工具的原因之一。

不斷重新訓練這些模型的成本很高，遲早有人會放棄這些低效的方法。

目前還沒有任何 ML 模型能夠可靠地持續適應不斷變化的輸入分佈，而不會對之前的編碼任務造成嚴重干擾或性能損失。

而這正是生物神經網路所擅長的領域之一。由於生物神經網具有強大的泛化能力，學習不同的任務可以進一步提高系統的性能，因為從一項任務中獲得的知識有助於改善整個學習過程本身，這就是所謂的「元學習」。

任務污染的問題有多嚴重？我們一起來看下論文內容。

模型和資料集

實驗所使用的模型有 12 個，其中 5 個是專有的 GPT-3 系列模型，7 個是可免費獲取權重的開放模型。

資料集分為兩類：2021 年 1 月 1 日之前或之後發佈的資料集，研究者使用這種劃分方法來分析舊資料集與新資料集之間的零樣本或少樣本性能差異，並對所有 LLM 採用相同的劃分方法。表 1 列出了每個模型訓練資料的建立時間，表 2 列出了每個資料集的發佈日期。

上述做法的考慮是，零樣本和少樣本評估涉及模型對其在訓練期間從未見過或僅見過幾次的任務進行預測，其關鍵前提是模型事先沒有接觸過要完成的特定任務，從而確保對其學習能力進行公平的評估。然而，受污染的模型會給人一種未接觸或僅接觸過幾次的能力的假象，因為它們在預訓練期間已經接受過任務示例的訓練。在按時間順序排列的資料集中，檢測這種不一致性會相對容易一些，因為任何重疊或異常都會很明顯。

測量方法

研究者採用了四種方法來測量任務污染：

訓練資料檢查：在訓練資料中搜尋任務訓練示例。
任務示例提取：從現有模型中提取任務示例。只有經過指令調優的模型才能進行提取，這種分析也可用於訓練資料或測試資料的提取。注意，為了檢測任務污染，提取的任務示例不必與現有的訓練資料示例完全匹配。任何展示任務的示例都表明零樣本學習和少樣本學習可能存在污染。
成員推理：此方法僅適用於生成任務。檢查輸入實例的模型生成內容是否與原始資料集完全相同。如果完全匹配，就可以推斷它是 LLM 訓練資料中的一員。這與任務示例提取不同，因為生成的輸出會被檢查是否完全匹配。開放式生成任務的精確匹配強烈表明模型在訓練過程中見過這些示例，除非模型「通靈」，知道資料中使用的確切措辭。（注意，這只能用於生成任務。）
時序分析：對於在已知時間範圍內收集訓練資料的模型集，在已知發佈日期的資料集上測量其性能，並使用時序證據檢查污染證據。

前三種方法精度高，但召回率低。如果能在任務的訓練資料中找到資料，那麼就能確定模型曾見過示例。但由於資料格式的變化、用於定義任務的關鍵字的變化以及資料集的大小，使用前三種方法找不到污染證據並不能證明沒有污染。

第四種方法，按時間順序分析的召回率高，但精確度低。如果由於任務污染而導致性能較高，那麼按時間順序分析就有很大機會發現它。但隨著時間的推移，其他因素也可能導致性能提高，因此精確度較低。

因此，研究者採用了所有四種方法來檢測任務污染，發現了在某些模型和資料集組合中存在任務污染的有力證據。

他們首先對所有測試過的模型和資料集進行時序分析，因為它最有可能發現可能的污染；然後使用訓練資料檢查和任務示例提取尋找任務污染的進一步證據；接下來觀察了 LLM 在無污染任務中的性能，最後使用成員推理攻擊進行額外分析。

重點結論如下：

研究者對每個模型在其訓練資料在Internet上抓取之前建立的資料集和之後建立的資料集進行了分析。結果發現，對於在收集 LLM 訓練資料之前建立的資料集，其性能高於大多數基線的機率明顯更高。

研究者進行了訓練資料檢查和任務示例提取，以尋找可能存在的任務污染。結果發現，對於不可能存在任務污染的分類任務，在一系列任務中，模型很少比簡單多數基線有統計意義上的顯著提高，無論是零樣本還是少樣本。

研究者也檢查了 GPT-3 系列和開放 LLM 的平均表現隨時間的變化：

作為案例研究，研究者還嘗試對分析中的所有模型進行語義解析任務的成員推理攻擊，發現在最終任務中，提取實例的數量與模型的精準性之間存在很強的相關性（R=.88）。這有力地證明了在這一任務中零樣本性能的提高是由於任務污染造成的。

研究者還還仔細研究了 GPT-3 系列模型，發現可以從 GPT-3 模型中提取訓練示例，而且從 davinci 到 GPT-3.5-turbo 的每個版本中，可提取的訓練示例數量都在增加，這與 GPT-3 模型在該任務上零樣本性能的提高密切相關。這有力地證明了從 davinci 到 GPT-3.5-turbo 的 GPT-3 模型在這些任務上的性能提高是由於任務污染造成的。

稿源：機器之心