首頁 文本分類 文本分類 的最新熱門文章 新聞 只改關鍵字的一個字元就能讓AI「中招」回答色情或暴力問題?新型TokenBreak攻擊手法成語言模型隱憂 janus 發表於 2025年7月07日 14:30 Plurk 新型攻擊TokenBreak揭露大型語言模型安全漏洞,透過修改TokenBreak輸入文字繞過安全判斷。研究建議採用Unigram模型並強化訓練,防禦TokenBreak攻擊。 上一頁1下一頁
新聞 只改關鍵字的一個字元就能讓AI「中招」回答色情或暴力問題?新型TokenBreak攻擊手法成語言模型隱憂 janus 發表於 2025年7月07日 14:30 Plurk 新型攻擊TokenBreak揭露大型語言模型安全漏洞,透過修改TokenBreak輸入文字繞過安全判斷。研究建議採用Unigram模型並強化訓練,防禦TokenBreak攻擊。