FB 建議貼文

選取貼文複製成功(包含文章連結)!

只改關鍵字的一個字元就能讓AI「中招」回答色情或暴力問題?新型TokenBreak攻擊手法成語言模型隱憂

只改關鍵字的一個字元就能讓AI「中招」回答色情或暴力問題?新型TokenBreak攻擊手法成語言模型隱憂

資安公司HiddenLayer近期揭露一項針對大型語言模型(LLM)安全防線的新型攻擊技術,稱為「TokenBreak」。該方法只需更動輸入文字中的一個字元,就能讓模型的內容過濾與安全判斷機制失效,從而成功注入惡意提示(prompt injection)。

只改關鍵字的一個字元就能讓AI「中招」回答色情或暴力問題?新型TokenBreak攻擊手法成語言模型隱憂

研究指出,這種攻擊針對的是文本分類模型的斷詞策略(tokenization),透過微幅修改輸入詞彙(例如將“instructions”改為“finstructions”、“announcement”改為“aannouncement”),讓模型產生誤判,無法正確識別出其中潛藏的危險內容或垃圾訊息。

雖然這類變造文字可能會讓某些模型的分類系統出錯,但語意仍清楚易懂,因此最終的AI模型(或人類接收者)仍能正確解讀,進而暴露在攻擊風險之下。研究人員指出:「這些輸入被刻意設計成讓防護模型誤判,卻不影響語意理解,使最終接收方仍可能中招。」

這項攻擊手法對採用Byte Pair Encoding(BPE)或WordPiece斷詞策略的模型特別有效,而採用Unigram斷詞策略的模型則能有效抵禦。研究建議,若希望降低風險,應優先選用Unigram型tokenizer的模型,同時透過訓練資料涵蓋繞過技巧範例,並持續比對斷詞結果與模型邏輯的一致性,進行防禦強化。

只改關鍵字的一個字元就能讓AI「中招」回答色情或暴力問題?新型TokenBreak攻擊手法成語言模型隱憂

這項發現也與HiddenLayer上月發表的另一項研究相呼應,當時他們揭示可透過操控模型上下文協定(Model Context Protocol, MCP),抽取敏感資料如完整系統提示。

同時,另一支名為Straiker AI Research(STAR)的團隊也揭露名為「Yearbook Attack」的新型攻擊方式,透過創造看似無害的縮寫(backronym),像是“Friendship, Unity, Care, Kindness”這樣的詞組,成功繞過AI模型對有害語意的判別,觸發回應暴力、色情或不當內容的輸出。這項攻擊對Anthropic、Google、Meta、OpenAI等多家AI模型均展現高命中率。

研究人員指出,這類攻擊並非強行突破濾網,而是「悄悄鑽漏洞」,利用模型對上下文邏輯連貫性的偏好,避開對意圖的深入辨識。

 

 

 

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則