
AI 模型雖然很會解題,但一遇到「無關緊要的廢話」就大亂陣腳?史丹佛大學與 Collinear AI 團隊最新研究指出,只要在數學題目後加上一句像是「貓咪一生中有 70% 時間都在睡覺」的貓咪冷知識,就能讓大型語言模型(LLM)答錯率暴增 300%。這種攻擊手法已被正式命名為「CatAttack」。
看似無害的一句話,竟讓 AI 解題失常
研究人員發現,只要在題目末尾加入一段與題目無關、但語氣自然的句子(像是動物小知識、理財建議、或干擾性提問),就能讓 AI 模型產生混亂,出現答錯、拖長推理過程,甚至產生過度解釋。
例如這句經典:「趣味小知識:貓每天平均睡 13~16 小時」,對人類來說根本不會影響解題思路,但對 AI 來說,卻可能干擾推論流程,導致出錯。
低階模型找漏洞,高階模型照樣中招
研究團隊設計了「三層架構攻擊流程」:先用低階 LLM(稱為代理模型)測試大量敵對觸發句,並由另一個「攻擊模型」負責生成這些干擾文字,再用「判定模型」評估干擾效果。
只要找到有效干擾,就會再拿去測試更高階的推論模型。實驗證明,即便是像 DeepSeek-R1、Qwen、Llama 3.1 這類先進模型,也會因為加入一句無關話而答錯。
其中一款模型 Mistral-Small-24B-Instruct 的錯誤率甚至飆升到原本的 7 倍!
不只會答錯,還會拖台錢!
更令人頭痛的是:這類「貓攻擊」不僅讓模型答錯,還會導致回應變得冗長。AI 嘗試把所有資訊都「想辦法連結」,結果就會產生多餘文字與無意義解釋,造成處理時間延長、運算成本增加。
尤其是蒸餾過的精簡版模型(例如輕量化後的 LLM),對這類攻擊更沒抵抗力,顯示模型瘦身的同時,也可能犧牲了穩定性。
不過,研究人員初步測試指出,只要在提示詞中加入一句簡單的指令,例如「請忽略與問題無關的句子」,就能大幅降低攻擊成功率,成為未來防禦的關鍵方向。
研究來源:《CATATTACKS: How harmless chit-chat turns helpful LLMs into hallucinating fools》( arXiv 預印本)
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!