FB 建議貼文

選取貼文複製成功(包含文章連結)!

再強的AI也會越聊越笨,微軟最新研究揭露多輪對話成功率慘跌至 65%

再強的AI也會越聊越笨,微軟最新研究揭露多輪對話成功率慘跌至 65%

相信許多人在跟 AI 進行長篇大論的對話時,常常會覺得它們好像漸漸失去記憶,或是開始胡言亂語 。過去我們可能以為這只是錯覺,但沒想到現在連微軟都跳出來證實,這種感覺可是有科學根據的

科學證實的對話迷失缺陷

根據科技媒體 Windows Central 報導,微軟研究院與 Salesforce 最近聯合發表了一項重量級研究 。研究團隊針對目前市面上 15 款最頂尖的大型語言模型,包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 以及 Llama 4,進行了超過 20 萬次的模擬對話分析 。結果揭露了一個被稱為對話迷失的系統性缺陷

數據顯示,這些模型在接收單次提示任務時,成功率高達 90% 。但是,當我們把同樣的任務拆解成多輪自然對話後,成功率竟然驟降到約 65% 。研究指出,這並不是因為 AI 的智力下降了,其核心能力其實只降低了約 15%,真正要命的是它們的不可靠性飆升了 112% 。換句話說,AI 還是很聰明,但只要聊得太久,它們就很容易忘記前後文,變得極度不穩定

為什麼 AI 會越聊越失控

到底為什麼會這樣呢?研究人員揪出了兩個元凶。首先是過早生成,很多時候我們話都還沒說完,AI 就急著想要給出最終答案 。一旦 AI 在對話初期形成了錯誤的第一印象,後續就算我們補充了新資訊,它也很難回頭修正,導致錯誤越滾越大

其次是答案膨脹問題。在多輪對話中,AI 的回覆長度會比單輪對話暴增 20% 到 300% 。話說得越多,就越容易出現各種腦補的幻覺,而這些錯誤內容又會被 AI 納入後續的上下文記憶中,形成惡性循環

連思考 token 也救不了

過去也有開發者認為,只要調整模型的溫度參數,或是利用最新一代具備思考 token 的模型就能解決這個問題。但令人意外的是,研究發現即使是 OpenAI o3 或 DeepSeek R1 這些強大的推理模型,也沒辦法明顯改善多輪對話變笨的狀況 。就算把溫度參數設定為 0 來確保輸出一致性,同樣無濟於事

面對這個殘酷的現實,目前最有效的應對方式,反而是改變我們使用 AI 的習慣。與其跟 AI 一來一往地慢慢聊,不如把所有必要的資料、限制條件和指令,一次性在單個完整的提示詞中寫清楚,這樣才能獲得最穩定、最準確的輸出結果

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則