
隨著 AI 應用逐漸滲透日常生活,業界對大型語言模型(LLM)的安全性也愈加重視。但近期一項新研究卻指出,即使是像 ChatGPT、Gemini 等具備安全防護機制的 AI,也可能在特定條件下被「資訊過載」技術騙過,說出不該說的內容,甚至違反原本的安全規範。
這項研究由美國英特爾、博伊西州立大學與伊利諾大學香檳分校合作完成,並已以預印本形式發表,研究團隊提出一套名為 「InfoFlood」 的自動化攻擊系統,成功讓多款主流 AI 模型「越獄」。
新手法:用大量文字淹沒AI,讓防護機制「當機」
研究指出,InfoFlood 的核心概念是透過「任務定義 + 規則 + 上下文 + 範例」組成的標準化提示模板,夾帶大量語意複雜或無意義的訊息,將 AI 模型淹沒在資訊中,使其無法精確辨識使用者的真正意圖。
例如,當模型原本拒絕回答某項敏感問題時,InfoFlood 會回傳一個看似合理、實際上帶有惡意誘導的「規則集」,並利用大量重複、模糊或胡亂生成的段落來混淆模型的語意判斷。
這種手法的關鍵在於:並非直接下達明確的越獄指令,而是透過語言結構轉換,把惡意請求藏在文字雜訊中,進而繞過 AI 內建的內容審查機制。
AI越獄不靠提示駭客,而是語言混亂:ChatGPT、Gemini 中招
以往不少越獄攻擊(jailbreak)仰賴 prompt injection 技術,透過特殊指令或語法誤導模型。但 InfoFlood 所採用的「資訊過載」策略更難防範,因為它並沒有使用明顯的越權語句,而是利用模型對語意的敏感度與推理限制來達到目的。
研究人員指出,許多 AI 模型的安全防線依賴「關鍵字封鎖」與回應模板(如「抱歉,我無法協助...」),但這些防線無法對抗語意混亂與資訊炸彈帶來的混淆攻擊。
在實測中,InfoFlood 成功讓 ChatGPT、Gemini 等主流模型產生原本應該被阻擋的回應,顯示即使經過多重訓練與調校,LLM 仍有潛在的結構性弱點。
研究團隊表示,已經向各大 AI 開發商發出正式披露文件,提醒他們注意此類資安漏洞。未來 AI 安全團隊將需重新思考,如何從語意理解層面提升模型的防護能力,而不只是依賴關鍵字過濾。
觀察:AI 安全新挑戰,可能成為下一波攻防戰場
這項研究無疑為 AI 安全防線敲響警鐘,尤其在企業愈來愈倚賴 AI 模型協助處理機密資料與業務時,更須嚴防此類繞過審查機制的攻擊路徑。
值得注意的是,研究中強調該技術仍具學術性質,主要目的是希望 AI 廠商能及早修補潛在漏洞,而非公開利用手法。但未來若遭有心人士濫用,可能會成為一種新的社交工程攻擊方式,對 AI 導入機構構成風險。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!