相信許多人在跟 AI 進行長篇大論的對話時,常常會覺得它們好像漸漸失去記憶,或是開始胡言亂語 。過去我們可能以為這只是錯覺,但沒想到現在連微軟都跳出來證實,這種感覺可是有科學根據的 。
科學證實的對話迷失缺陷
根據科技媒體 Windows Central 報導,微軟研究院與 Salesforce 最近聯合發表了一項重量級研究 。研究團隊針對目前市面上 15 款最頂尖的大型語言模型,包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 以及 Llama 4,進行了超過 20 萬次的模擬對話分析 。結果揭露了一個被稱為對話迷失的系統性缺陷 。
數據顯示,這些模型在接收單次提示任務時,成功率高達 90% 。但是,當我們把同樣的任務拆解成多輪自然對話後,成功率竟然驟降到約 65% 。研究指出,這並不是因為 AI 的智力下降了,其核心能力其實只降低了約 15%,真正要命的是它們的不可靠性飆升了 112% 。換句話說,AI 還是很聰明,但只要聊得太久,它們就很容易忘記前後文,變得極度不穩定 。
為什麼 AI 會越聊越失控
到底為什麼會這樣呢?研究人員揪出了兩個元凶。首先是過早生成,很多時候我們話都還沒說完,AI 就急著想要給出最終答案 。一旦 AI 在對話初期形成了錯誤的第一印象,後續就算我們補充了新資訊,它也很難回頭修正,導致錯誤越滾越大 。
其次是答案膨脹問題。在多輪對話中,AI 的回覆長度會比單輪對話暴增 20% 到 300% 。話說得越多,就越容易出現各種腦補的幻覺,而這些錯誤內容又會被 AI 納入後續的上下文記憶中,形成惡性循環 。
連思考 token 也救不了
過去也有開發者認為,只要調整模型的溫度參數,或是利用最新一代具備思考 token 的模型就能解決這個問題。但令人意外的是,研究發現即使是 OpenAI o3 或 DeepSeek R1 這些強大的推理模型,也沒辦法明顯改善多輪對話變笨的狀況 。就算把溫度參數設定為 0 來確保輸出一致性,同樣無濟於事 。
面對這個殘酷的現實,目前最有效的應對方式,反而是改變我們使用 AI 的習慣。與其跟 AI 一來一往地慢慢聊,不如把所有必要的資料、限制條件和指令,一次性在單個完整的提示詞中寫清楚,這樣才能獲得最穩定、最準確的輸出結果 。
- 延伸閱讀:加快腳步推動台版ChatGPT「可信賴AI對話引擎」(TAIDE),華碩取得超級電腦「台灣杉四號」標案
- 延伸閱讀:他想把DOS時代的IBM 5155拿來跑ChatGPT,36年前的電腦能跟現代AI對話嗎?
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!