FB 建議貼文

選取貼文複製成功(包含文章連結)!

史丹佛研究發現讓AI解題時加一句「貓咪冷知識」,答錯率竟暴增 3 倍

史丹佛研究發現讓AI解題時加一句「貓咪冷知識」,答錯率竟暴增 3 倍

AI 模型雖然很會解題,但一遇到「無關緊要的廢話」就大亂陣腳?史丹佛大學與 Collinear AI 團隊最新研究指出,只要在數學題目後加上一句像是「貓咪一生中有 70% 時間都在睡覺」的貓咪冷知識,就能讓大型語言模型(LLM)答錯率暴增 300%。這種攻擊手法已被正式命名為「CatAttack」。

史丹佛研究發現讓AI解題時加一句「貓咪冷知識」,答錯率竟暴增 3 倍

看似無害的一句話,竟讓 AI 解題失常

研究人員發現,只要在題目末尾加入一段與題目無關、但語氣自然的句子(像是動物小知識、理財建議、或干擾性提問),就能讓 AI 模型產生混亂,出現答錯、拖長推理過程,甚至產生過度解釋。

例如這句經典:「趣味小知識:貓每天平均睡 13~16 小時」,對人類來說根本不會影響解題思路,但對 AI 來說,卻可能干擾推論流程,導致出錯。

史丹佛研究發現讓AI解題時加一句「貓咪冷知識」,答錯率竟暴增 3 倍

史丹佛研究發現讓AI解題時加一句「貓咪冷知識」,答錯率竟暴增 3 倍

低階模型找漏洞,高階模型照樣中招

研究團隊設計了「三層架構攻擊流程」:先用低階 LLM(稱為代理模型)測試大量敵對觸發句,並由另一個「攻擊模型」負責生成這些干擾文字,再用「判定模型」評估干擾效果。

只要找到有效干擾,就會再拿去測試更高階的推論模型。實驗證明,即便是像 DeepSeek-R1、Qwen、Llama 3.1 這類先進模型,也會因為加入一句無關話而答錯。

其中一款模型 Mistral-Small-24B-Instruct 的錯誤率甚至飆升到原本的 7 倍!

史丹佛研究發現讓AI解題時加一句「貓咪冷知識」,答錯率竟暴增 3 倍

史丹佛研究發現讓AI解題時加一句「貓咪冷知識」,答錯率竟暴增 3 倍

不只會答錯,還會拖台錢!

更令人頭痛的是:這類「貓攻擊」不僅讓模型答錯,還會導致回應變得冗長。AI 嘗試把所有資訊都「想辦法連結」,結果就會產生多餘文字與無意義解釋,造成處理時間延長、運算成本增加。

尤其是蒸餾過的精簡版模型(例如輕量化後的 LLM),對這類攻擊更沒抵抗力,顯示模型瘦身的同時,也可能犧牲了穩定性。

不過,研究人員初步測試指出,只要在提示詞中加入一句簡單的指令,例如「請忽略與問題無關的句子」,就能大幅降低攻擊成功率,成為未來防禦的關鍵方向。

 

研究來源:《CATATTACKS: How harmless chit-chat turns helpful LLMs into hallucinating fools》 arXiv 預印本

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則