
資安公司HiddenLayer近期揭露一項針對大型語言模型(LLM)安全防線的新型攻擊技術,稱為「TokenBreak」。該方法只需更動輸入文字中的一個字元,就能讓模型的內容過濾與安全判斷機制失效,從而成功注入惡意提示(prompt injection)。
研究指出,這種攻擊針對的是文本分類模型的斷詞策略(tokenization),透過微幅修改輸入詞彙(例如將“instructions”改為“finstructions”、“announcement”改為“aannouncement”),讓模型產生誤判,無法正確識別出其中潛藏的危險內容或垃圾訊息。
雖然這類變造文字可能會讓某些模型的分類系統出錯,但語意仍清楚易懂,因此最終的AI模型(或人類接收者)仍能正確解讀,進而暴露在攻擊風險之下。研究人員指出:「這些輸入被刻意設計成讓防護模型誤判,卻不影響語意理解,使最終接收方仍可能中招。」
這項攻擊手法對採用Byte Pair Encoding(BPE)或WordPiece斷詞策略的模型特別有效,而採用Unigram斷詞策略的模型則能有效抵禦。研究建議,若希望降低風險,應優先選用Unigram型tokenizer的模型,同時透過訓練資料涵蓋繞過技巧範例,並持續比對斷詞結果與模型邏輯的一致性,進行防禦強化。
這項發現也與HiddenLayer上月發表的另一項研究相呼應,當時他們揭示可透過操控模型上下文協定(Model Context Protocol, MCP),抽取敏感資料如完整系統提示。
同時,另一支名為Straiker AI Research(STAR)的團隊也揭露名為「Yearbook Attack」的新型攻擊方式,透過創造看似無害的縮寫(backronym),像是“Friendship, Unity, Care, Kindness”這樣的詞組,成功繞過AI模型對有害語意的判別,觸發回應暴力、色情或不當內容的輸出。這項攻擊對Anthropic、Google、Meta、OpenAI等多家AI模型均展現高命中率。
研究人員指出,這類攻擊並非強行突破濾網,而是「悄悄鑽漏洞」,利用模型對上下文邏輯連貫性的偏好,避開對意圖的深入辨識。
- 新聞來源:techradar
- 延伸閱讀:AMD 發表開源專案 GAIA,加速本地端大型語言模型高效運行
- 延伸閱讀:鴻海推出FoxBrain:國內首款具推理能力繁體中文AI大型語言模型,將開源分享
- 延伸閱讀:趨勢科技推出首款資安大型語言模型,主動式資安 AI 助企業預測及防範網路攻擊
- 延伸閱讀:為什麼訓練大型語言模型主要用的是GPU而不是CPU?主流用來訓練大型語言模型的晶片有哪些?
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!