別讓大模型想太多，過度思考也會影響性能

近年來，推理模型可說是科技領域最受矚目的焦點之一。從 OpenAI 的 ChatGPT、Google 的 Gemini，到各家科技巨頭紛紛投入資源開發更強大的推理引擎，相關應用與服務如雨後春筍般湧現，深刻地改變了我們與 AI 互動的方式。你可能也習慣在模型中選擇「進階推理」或是「深度思考」的模式，然而，隨著這些模型的能力不斷提升，研究人員也開始關注其潛在的問題。

加州大學柏克萊分校、蘇黎世聯邦理工學院等多所大學的研究人員，深入剖析了大型模型在執行代理人任務時面臨的問題 —— 過度思考。為了量化這種行為，研究人員開發了一套系統評估框架，並透過 4018 條軌跡分析發現，高推理努力配置的模型雖然解決了 29.1% 的問題，但成本高達 1400 美元；而低推理努力配置則以 3.5 倍更低的成本達到了 21.0% 的成功率。

此外，產生兩個低推理解決方案並選擇其中一個具有較低過度思考分數的方法，實現了 27.3% 的解決率，同時減少了 43% 的運算成本。這顯示減輕過度思考不僅提升了推理效率，還顯著降低了成本。

開源位址：https://github.com/AlexCuadron/ThinkingAgent

過度思考是指，大型模型過度依賴內部推理，而忽略了從環境中獲取或整合關鍵回饋的傾向。即使在資源不受限制的情況下，這種過度依賴內部推理的模型仍然會受到其不完整或不準確的世界模型的限制，從而導致錯誤的累積和決策能力的下降。

為了深入研究這種現象，研究人員透過分析智慧體與環境之間的互動過程，識別出三種過度思考的典型表現模式。

首先是「分析癱瘓」（Analysis Paralysis），在這種情況下，模型過度專注於未來的規劃，而忽略了當前環境中的實際進展。它們會產生越來越複雜的行動序列，但卻難以系統地執行這些計畫，從而陷入無休止的規劃循環中。

其次是「魯莽行動」（Rogue Actions），在這種模式下，模型在面對錯誤時會嘗試同時執行多個相互依賴的行動，而沒有等待環境對前一個行動的回饋，模型試圖用內部模擬來替代真實的環境回饋。

最後是「過早脫離」（PrematureDisengagement），在這種情況下，模型基於內部對問題空間的模擬而終止任務，而不是根據環境回饋來驗證解決方案的有效性。這種過度依賴內部推理的行為可能導致模型在沒有驗證的情況下就放棄任務，或者錯誤地認為問題無法解決。

為了量化過度思考行為，研究團隊開發了一種系統化的評分方法，使用大型模型作為評斷標準。該方法透過分析模型軌跡，識別出上述三種過度思考模式，並給出 0 到 10 分的評分，分數越高表示過度思考越嚴重。每個評分都附有詳細的理由，解釋所識別的模式及其嚴重程度。

為了驗證自動化評估方法的可靠性，研究人員邀請了四位專家手動評定了 20 個隨機選擇的模型軌跡。透過標準化評分，研究團隊進行了全面的統計分析，探究過度思考行為與模型效能的關係，以及過度思考對推理模型和非推理模型的不同影響。

結果顯示，推理模型的過度思考分數顯著高於非推理模型，且兩者之間的相關性非常強，證實了自動評估方法的可靠性。

此外，研究團隊設計了一個系統化評估軌跡的提示，避免使用「過度思考」一詞以防止模型偏向自身定義。該提示圍繞過度思考的三種表現形式展開，即分析癱瘓、魯莽行動和過早脫離，並強調偏好內部推理鏈而非環境互動。

評分系統分為三級：0-3 分表示適當的環境互動，4-7 分表示偶爾過度依賴內部推理，8-10 分則表示完全脫離環境回饋。

透過提供具體的例子，如模型得 0 分時會持續重試類似配置並在每次嘗試間等待回饋，而得 10 分時會產生多個互依動作而不等待環境回應，或基於內部推理提前結束任務，確保評分標準的透明和一致。

實驗結果顯示，過度思考評分與任務解決率呈現出顯著的負相關性。推理模型的過度思考評分越高，其在軟體工程任務中的表現越差。這一趨勢在非推理模型中也得到了體現，但其下降速度更快。例如，推理模型的趨勢線斜率為 -7.894，而非推理模型的趨勢線斜率達到了 -15.938。

在模型類型與過度思考的關係方面，作者們發現推理模型的過度思考傾向明顯高於非推理模型。實驗數據顯示，推理模型的平均過度思考評分為 3.505，而非推理模型的平均評分為 2.228。這種傾向可能是由於推理模型在訓練過程中被優化為產生更長的推理鏈，從而在面對需要頻繁與環境互動的任務時，表現出更高的過度思考傾向。

此外，還研究了模型規模對過度思考的影響。實驗結果顯示，模型規模與過度思考評分之間存在負相關性。較小的模型，如 7B 和 14B 參數的模型在互動式任務中表現出更高的過度思考傾向，而較大的模型如 671B 參數的模型則相對較低。這一現象可能與模型的複雜性和對環境回饋的處理能力有關。