[论文阅读]Visual Adversarial Examples Jailbreak Aligned Large Language Models

Visual Adversarial Examples Jailbreak Aligned Large Language Models| Proceedings of the AAAI Conference on Artificial Intelligence

Proceedings of the AAAI Conference on Artificial Intelligence The Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI-24)

中文译名:视觉对抗样本越狱对齐的大语言模型

摘要

警告:本文包含具有攻击性的数据、提示和模型输出。

最近,将视觉集成到 大型语言模型(LLM)中的兴趣激增,典型代表是 Flamingo 和 GPT-4 等视觉语 言模型(VLMs)。本文揭示了这种趋势的安全性和安全隐患。首先,我们强调, 视觉输入的连续性和高维度性使其成为对抗性攻击的薄弱环节 ,代表了视觉集成 LLM 的扩展攻击面。其次,我们指出,LLM 的多功能性也为视觉攻击者提供了更广泛的对抗性目标 ,扩展了安全性故障的影响超出了单纯的误分类。举例来说, 我们展示了一项案例研究,其中我们利用视觉对抗性例子绕过了集成视觉的对齐 LLM 的安全保护措施。值得注意的是,我们发现单个视觉对抗性例子可以普遍绕过对齐的 LLM,迫使其执行广泛的有害指令(否则不会)并生成有害内容, 这些内容超出了最初优化对抗性例子的"少量样本"贬低语料库的范围。我们的研究强调了在追求多模态性时不断升级的对抗性风险。我们的发现还连接了神经网络长期研究的对抗性脆弱性和新兴的 AI 对齐领域。所展示的攻击表明了 AI 对齐的一个根本性的对抗性挑战,特别是在向多模态性和前沿基础模型发展的趋势下。

贡献

  1. 多模态。我们强调了与追求多模态 相关的不断升级的对抗风险(攻击面的扩展和安全故障的扩展影响)。虽然我们 的重点仅限于视觉和语言,但我们推测对于其他模态,如音频(Carlini 和 Wagner, 2018)、激光雷达(Cao 等人,2021)、深度和热图(Girdhar 等人,2023)等, 也存在类似的跨模态攻击。此外,尽管我们关注语言领域的危害,但我们预计一 旦 LLMs 被集成到其他系统中,如机器人技术(Brohan 等人,2023)和 APIs 管 理(Patil 等人,2023),这种跨模态攻击可能会产生更广泛的影响。
  2. 针对对齐的对抗样本。从经验上看,我们发现一个在少样本有害语料库上优化的单一对 抗样本表现出意想不到的通用性,并使对齐的 LLMs 越狱。这一发现将神经网络的对抗性漏洞(尽管经过了十年的研究仍未得到解决)与新兴的对齐研究领域 (Kenton 等人,2021;Ouyang 等人,2022;Bai 等人,2022)联系起来。我们的攻击表明,对于 AI 对齐来说,这是一个根本性的对抗挑战,特别是考虑到前沿基础模型中出现的多模态趋势。

总结

LLM在引入视觉机制之后,其系统变得更加复杂。传统的对纯文本输入输出的LLM的越狱攻击的难度还是比较大的,因为文本是离散型的。在引入视觉机制后,对系统的越狱攻击就变得简单了,就像GAN网络生成对抗样本一样,对图像进行加噪可以有效诱导VLM进行越狱。其背后的原因是视觉输入的高维性和连续性容易收到攻击、

相关推荐
kakaZhui10 分钟前
【llm对话系统】大模型源码分析之 LLaMA 位置编码 RoPE
人工智能·深度学习·chatgpt·aigc·llama
struggle20251 小时前
一个开源 GenBI AI 本地代理(确保本地数据安全),使数据驱动型团队能够与其数据进行互动,生成文本到 SQL、图表、电子表格、报告和 BI
人工智能·深度学习·目标检测·语言模型·自然语言处理·数据挖掘·集成学习
佛州小李哥1 小时前
通过亚马逊云科技Bedrock打造自定义AI智能体Agent(上)
人工智能·科技·ai·语言模型·云计算·aws·亚马逊云科技
云空2 小时前
《DeepSeek 网页/API 性能异常(DeepSeek Web/API Degraded Performance):网络安全日志》
运维·人工智能·web安全·网络安全·开源·网络攻击模型·安全威胁分析
AIGC大时代2 小时前
对比DeepSeek、ChatGPT和Kimi的学术写作关键词提取能力
论文阅读·人工智能·chatgpt·数据分析·prompt
Fhd-学习笔记3 小时前
《大语言模型》综述学习笔记
笔记·学习·语言模型
山晨啊83 小时前
2025年美赛B题-结合Logistic阻滞增长模型和SIR传染病模型研究旅游可持续性-成品论文
人工智能·机器学习
一水鉴天4 小时前
为AI聊天工具添加一个知识系统 之77 详细设计之18 正则表达式 之5
人工智能·正则表达式
davenian4 小时前
DeepSeek-R1 论文. Reinforcement Learning 通过强化学习激励大型语言模型的推理能力
人工智能·深度学习·语言模型·deepseek
X.AI6664 小时前
【大模型LLM面试合集】大语言模型架构_llama系列模型
人工智能·语言模型·llama