再強的AI也會越聊越笨，微軟最新研究揭露多輪對話成功率慘跌至 65%

相信許多人在跟 AI 進行長篇大論的對話時，常常會覺得它們好像漸漸失去記憶，或是開始胡言亂語。過去我們可能以為這只是錯覺，但沒想到現在連微軟都跳出來證實，這種感覺可是有科學根據的。

科學證實的對話迷失缺陷

根據科技媒體 Windows Central 報導，微軟研究院與 Salesforce 最近聯合發表了一項重量級研究。研究團隊針對目前市面上 15 款最頂尖的大型語言模型，包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 以及 Llama 4，進行了超過 20 萬次的模擬對話分析。結果揭露了一個被稱為對話迷失的系統性缺陷。

數據顯示，這些模型在接收單次提示任務時，成功率高達 90% 。但是，當我們把同樣的任務拆解成多輪自然對話後，成功率竟然驟降到約 65% 。研究指出，這並不是因為 AI 的智力下降了，其核心能力其實只降低了約 15%，真正要命的是它們的不可靠性飆升了 112% 。換句話說，AI 還是很聰明，但只要聊得太久，它們就很容易忘記前後文，變得極度不穩定。

為什麼 AI 會越聊越失控

到底為什麼會這樣呢？研究人員揪出了兩個元凶。首先是過早生成，很多時候我們話都還沒說完，AI 就急著想要給出最終答案。一旦 AI 在對話初期形成了錯誤的第一印象，後續就算我們補充了新資訊，它也很難回頭修正，導致錯誤越滾越大。

其次是答案膨脹問題。在多輪對話中，AI 的回覆長度會比單輪對話暴增 20% 到 300% 。話說得越多，就越容易出現各種腦補的幻覺，而這些錯誤內容又會被 AI 納入後續的上下文記憶中，形成惡性循環。

連思考 token 也救不了

過去也有開發者認為，只要調整模型的溫度參數，或是利用最新一代具備思考 token 的模型就能解決這個問題。但令人意外的是，研究發現即使是 OpenAI o3 或 DeepSeek R1 這些強大的推理模型，也沒辦法明顯改善多輪對話變笨的狀況。就算把溫度參數設定為 0 來確保輸出一致性，同樣無濟於事。

面對這個殘酷的現實，目前最有效的應對方式，反而是改變我們使用 AI 的習慣。與其跟 AI 一來一往地慢慢聊，不如把所有必要的資料、限制條件和指令，一次性在單個完整的提示詞中寫清楚，這樣才能獲得最穩定、最準確的輸出結果。