GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

GPT-4根本不知道自己犯錯?最新研究發現,LLM在推理任務中,自我糾正後根本無法挽救性能變差。大型語言模型又被爆出重大缺陷,引得楊立昆(Yann LeCun)和馬庫斯(Gary Marcus)兩位大佬同時轉發關注!

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

在推理實驗中,聲稱可以提高精準性的模型自我糾正,把正確率從16%「提高」到了1%!

簡單來說,就是LLM在推理任務中,無法通過自我糾正的形式來改進輸出,除非LLM在自我糾正的過程中已經知道了正確答案。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

由ASU研究人員發表的兩篇論文,駁斥了之前很多研究提出的方法「自我糾正」—讓大型語言模型對自己的輸出的結果進行自我糾正,就能提高模型的輸出品質。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

論文網址:https://arxiv.org/abs/2310.12397

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

論文網址:https://arxiv.org/abs/2310.08118

論文的共同作者Subbarao Kambhampati教授,一直致力於AI推理能力的相關研究,9月份就發表過一篇論文,甚至全盤否定了GPT-4的推理和規劃能力。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

論文網址:https://arxiv.org/pdf/2206.10498.pdf

而除了這位教授之外,最近DeepMind和UIUC大學的研究者,也針對LLM在推理任務中的「自我糾正」的能力提出了質疑。

這篇論文甚至呼籲所有做相關研究的學者,「請嚴肅對待你們的研究,不要把正確答案告訴大型語言模型之後再讓它進行所謂的『自我糾正』。」因為如果模型不知道正確答案的話,模型自我糾正之後輸出品質反而會下降。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

論文網址:https://arxiv.org/abs/2310.01798

接下來,就具體來看看這兩篇最新論文。

GPT-4「自我糾正」,輸出結果反而更差

第一篇論文針對GPT-4進行研究,讓GPT-4對圖形著色問題提供解決方案,然後讓GPT-4對於自己提出方案進行自我糾正。同時,作者再引入一個外部的評估系統,對GPT-4的直接輸出和經過自我糾正循環之後的輸出進行評價。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

實驗結果顯示,GPT-4在猜測顏色方面的精準率還不到20%,這個數值似乎並不讓人意外。

但令人驚訝的是,自我糾正模式下的精準性卻大幅下降(下圖第二根柱狀條 )—與所有自我糾正本意完全背道而馳!

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

作者認為,這種看似反直覺的情況可以這麼解釋:GPT-4在驗證正確答案的表現也很糟糕!

因為即使當GPT-4偶然猜到正確顏色時,它的自我糾正會使它覺得正確答案是有問題的,然後就把正確答案給替換掉了。

通過進一步研究後還發現:如果外部驗證器給GPT-4猜測出的顏色提供了可以被證實的正確答案,GPT-4確實會改進它的解決方案。在這種情況下,經過自我糾正產生的提示詞,確實可以提高輸出結果的品質。(上圖的第3-5根柱狀圖 )

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

總結來看,就是對於「著色問題」任務,GPT-4獨立的自我糾正反而會損害輸出的性能,因為GPT-4沒法驗證答案是否正確。但是如果能提供外部的正確驗證過程,GPT-4生成的自我糾正確實能提升性能。

而另一篇論文,從規劃任務的角度來研究了大型語言模型自我糾正的能力,研究結果也和上一篇論文類似。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

而且,研究人員發現,真正能提高輸出精準性的不是LLM的自我糾正,而是外部獨立驗證器的反饋。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

歸根結底,還是在於LLM沒有辦法進行獨立的驗證,必須依賴外部的驗證器給出的「正確答案」,才能有效地進行自我糾正。

「著色問題」表現不佳,LLM無法獨立驗證正確答案

研究設計框架

「著色問題」是非常經典的推理問題,即使難度不大,答案也足夠多樣性,而且答案的正確性很容易進行驗證。多樣性的結果使得LLM的訓練資料很難覆蓋全,儘量避免了LLM的訓練資料被污染的可能。這些原因使得著色問題很適合用來研究LLM的推理能力,也很方便用來研究LLM在推理中自我糾正的能力。

研究人員建構了自己的資料集,使用GrinPy2來處理常見的圖操作。每個圖都是使用ER隨機圖方法(p=0.4)構造的。一旦找到正確的答案,它就會被編譯成標準的DIMACS格式,並附加上一個包含其預計算的色數(chromatic number)的註釋。

對於接下來的實驗,研究人員生成了100個實例,每個實例平均有24條邊,分佈在從10到17的節點數範圍內—這一分佈是因為經驗顯示,它是一個表現足夠多變的範圍。

研究人員使用的圖例如下圖1所示,這個流程包括LLM的第一次回覆、該回覆的返回提示(backprompt)以及最終正確的圖色方案。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

迭代返回提示(Iterative Backprompting)的架構

提示生成器(Prompt Generator):這個提示詞生成器會選取一個DIMACS實例,並將每條邊翻譯成一個句子,然後將整體包裹在一組通用指令中,從而構造出一個自然語言提示詞。研究人員有意縮小不同實例提示之間的差異,以減少研究人員向LLM洩露的問題特定資訊。各種類型提示的示例可以在附錄中找到。

大型語言模型:透過OpenAI API來呼叫GPT-4,這是當前最先進的模型。研究人員提供一個系統角色:「你是一個解決各種CSPs(約束滿足問題)的約束滿足求解器。」

返回提示詞生成(Backprompt Generation)

在驗證模式下,LLM收到一種不同類型的提示。除了標準指令外,它只包含圖的描述和建議的著色方案。它的任務是驗證正確性、最優性以及每個頂點是否都已經被塗上了一個顏色。如果生成的回覆中有一組邊是矛盾的,那著色方案就是錯誤的。為了比較每個點,研究人員還建構了一個能夠列出每一條矛盾邊的驗證器。

由於LLM的響應也是自然語言形式的,研究人員首先將它們翻譯成便於分析的格式。為了使這個過程更加一致,研究人員設計了最初的提示,以描述一個模型需要遵循的精確輸出格式。然後,該響應會被評估其正確性。為了判斷LLM驗證結果,研究人員會檢查它們在找出建議的著色方案中的錯誤方面表現如何。

直觀地說,這些應該很容易辨識:如果組成一個邊的兩個頂點共享一個顏色,立即返回該邊。從演算法角度看,只需要檢測所有的邊並比較每個頂點的顏色與其連接點的顏色即可。

驗證

為了更深入瞭解LLM的驗證能力,研究人員研究了它們在找出提出的著色方案中的錯誤方面的表現。研究人員使用相同的分析流程,但建構了一個研究人員稱為color_verification的新域。LLM被引導去檢查著色的正確性、最優性以及是否每個頂點都已經被賦予了一個顏色。如果著色是不正確的,它被指示列出著色中的錯誤,即如果兩個連接的節點共享一種顏色,就返回該邊以表示該錯誤。沒有給出返回提示(backprompts)。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

研究人員使用之前相同的圖實例,但生成了四種用於測試模型的著色方案:

正確(Correct):通過迭代的、隨機的貪婪演算法生成的沒有錯誤的最優著色方案(使用預先計算的色數以確保最優性)。

缺失(Ablated):將先前一組著色方案中的一個隨機節點改變為其鄰居的顏色。

非最優(Non-optimal):在正確的集合中,隨機選擇一個顏色部分重新著色為一個新的色調。

隨機(Random):完全隨機分配的顏色,不同顏色的數量等於圖的色數。

LLM:從先前實驗中LLM生成的輸出中隨機選取的著色方案。

結論

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

對LLM進行提示、評估答案,並在沒有任何返回提示(backprompts)的情況下就會進入下一個實例,得到的基線分數為16%。當研究人員運行相同的實例,但這次使用由相同的語言模型充當驗證者生成的反饋進行返回提示時,性能急劇下降—100個實例中只有一個得到了正確的回答。與外部合格的驗證器進行返回提示的結果起初看似更有效果。

正確回答的實例數量接近40%,但如果這意味著GPT-4在聽取、改進,並根據反饋進行推理,那麼研究人員期望更準確的返回提示會帶來更好的結果。然而,在這個域中,原始分數(見上圖2)並沒有證明這一點。

LLM的驗證能力

研究人員測試了GPT-4在相同實例上驗證圖著色方案的能力,為每種實例生成了五種不同類型的著色方案。明顯的結果是,與上面的LLM自我糾正結果完全一致:模型幾乎不願將任何答案標記為正確。在100個最優著色方案中,它只同意其中2個是正確的。

整個500個著色方案的集合,其中118個是正確的,它只聲稱其中30個是正確的。在這30個中,其實只有5次是正確的。

總體而言,這一模式保持不變。在不到10%的案例中,LLM給出了「正確」、「非最優」或「缺少賦值」的反應。在這些情況中,行為看似有些隨機。在大約四分之一的實例中,它用「這是不正確的」驗證作出回應,而解釋與現實相符,而且它只透過指明不超過一個邊來實現這一點,從而最小化了錯誤陳述某事的機會。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

結果如上表2所示。請注意,當域的錯誤率增加時,幻覺比例下降。也就是說,當有更多的不正確的邊時,模型更有可能指出其中出錯的情況。

LLM自我糾正,性能不增反減

在12日提交的論文中,作者同樣得出了與上面一致的結論。無論是規劃,還是簡單的算術或邏輯,當前最先進的大型語言模型GPT-4也無法完全勝任。許多研究人員對其進行了許多的探索和改進,其中就包括讓LLM學會自我迭代、自我驗證等策略來提升性能。由此,業界人們樂觀地認為,大型語言模型還有救!

然而,經典意義上的推理任務複雜性與大型語言模型無關,因為LLM是採用近似檢索而非精確推理的模型。在12日提交arXiv的論文中,ASU研者係統地評估和分析LLM在規劃任務中的自我批評,以及迭代最佳化的能力。

研究中,作者提出了一個包含生成器LLM和驗證器LLM的規劃系統。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

其中,GPT-4生成器負責生成候選計畫,GPT-4驗證器負責驗證計畫的正確性並提供反饋。然後,研究人員在Blocksworld規劃領域上進行了實驗,並對以下方面進行了實證評估:

  • 自我糾正對整個LLM+LLM系統的計畫生成性能的影響
  • 驗證器LLM相對於地面真值驗證的性能
  • 在糾正LLM生成時,同反饋等級對整體系統性能的影響

結果表明,與使用外部可靠的驗證器相比,自我糾正會降低LLM規劃生成性能。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

性能下降可以直接歸因於驗證器LLM的糟糕結果,驗證器LLM產生了大量的假陽性,這可能嚴重損害系統的可靠性。

驗證器LLM的二元分類精準率僅為61%,存在大量的假陽性(將錯誤規劃判斷為正確)。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

另外,根據反饋的詳細程度對比,發現其對規劃生成性能影響不大。

GPT-4不知道自己錯了!LLM新缺陷曝光:自我糾正成功率僅1%

總的來說,這項研究的系統調查提供了初步證據,對於LLM作為迭代、自我糾正框架內規劃任務驗證者的有效性提出質疑。

作者介紹Subbarao Kambhampati

Subbarao Kambhampati是亞利桑那州立大學電腦科學教授。Kambhampati研究規劃和決策中的基本問題,特別是受人類感知人工智慧系統挑戰的推動。

參考資料:

https://twitter.com/rao2z/status/1715800819239678013

https://twitter.com/GaryMarcus/status/1715804178470387736

 

 

 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則