通过双模式对抗提示越狱视觉语言模型

最近，将视觉整合到大型语言模型（LLMs）中的兴趣显著增加，催生了大型视觉语言模型（LVLMs）。这些模型结合了视觉和文本信息，如LLaVA和Gemini，已经在包括图像字幕、视觉问题回答和图像检索等一系列任务中展示了不错的性能。++++然而，LVLMs表现出的行为很容易与其创造者预期的目标不一致，经常生成不真实或可能对用户有害的输出。++++

为了揭示和减轻这些安全风险，越狱攻击已经作为一种红队策略出现，以绕过防护措施并评估模型的一致性。越狱攻击后，攻击者可以说服模型做任何事情，导致严重的安全后果，例如生成有害或不道德的内容，这些内容通常受到一致性指南的禁止。虽然在LVLMs的背景下已经出现了许多使用越狱攻击的披露和演示，但大多数攻击传统上都集中在为越狱攻击扰动视觉模态（即图像）上。这些包括制作视觉对抗性示例和将攻击意图编码为排版图像。然而，对齐的LVLMs同时利用视觉和文本特征进行预测，从而限制了目前仅扰动单一模态（即视觉）的攻击的有效性。例如，LLaVA会在没有与文本提示相关联的视觉对抗性图像的情况下拒绝回答，导致越狱失败。

++++为了解决这个问题，本文介绍了双模态对抗性提示攻击（BAP），这是一种新的框架，通过同时优化视觉和文本提示来越狱LVLMs++++ ++++。++++

1 LVLM 的结构和工作原理

LVLM（Large Vision Language Model）是一种将视觉信息和文本信息融合在一起的大型语言模型。它通过结合图像和文本信息，能够在图像理解、图像生成、图像描述、视觉问答等多个任务中展现出强大的能力。

1.1 LVLM 的结构

LVLM包含三个主要模块：

视觉模块 : 该模块负责处理图像信息，将其编码为特征向量。常见的视觉模块包括 CLIP 模型的视觉编码器等。
文本模块: 该模块是一个大型语言模型，例如 LLaMA 或 Vicuna，负责处理文本信息，并执行文本理解和生成任务。
视觉语言连接器: 该模块负责将视觉特征和文本特征进行融合，例如通过交叉注意力机制或投影层。

1.2 LVLM 的工作原理

LVLM 的工作流程包括以下几个步骤：

输入: 将图像和文本作为输入，分别传递给视觉模块和文本模块。
编码: 视觉模块将图像编码为特征向量，文本模块将文本编码为嵌入向量。
融合: 视觉语言连接器将视觉特征和文本特征进行融合，生成多模态特征。
理解/生成: 文本模块根据多模态特征进行文本理解和生成，例如图像描述、视觉问答等。

2 BAP的技术框架及攻击流程

双模态对抗性提示 (BAP) 是一种针对大型视觉语言模型 (LVLM) 的攻击方法，它通过同时优化文本和图像提示来绕过模型的安全限制，从而诱导模型生成有害内容。

2.1 技术框架

查询不可知的视觉扰动：BAP利用一个由LLM构建的查询不可知语料库，该语料库包含与肯定前缀和否定抑制相关的句子。通过这个语料库，BAP优化视觉对抗性提示，使其能够鼓励LVLMs无论文本提示的具体意图如何都给出积极的响应。

意图特定的文本优化：在有了查询不可知的视觉对抗性提示后，BAP进一步优化文本提示，以增强在特定有害意图下的越狱能力。这通常遵循以下三个阶段：

初始化：给定一个有害意图，直接将其作为初始文本提示。
反馈：使用一个评估函数来确定LVLMs对越狱攻击的反应是否成功。
迭代：如果越狱未成功，LLM将根据CoT策略和有害意图，分析失败的原因，并重新构思文本提示。

2.2 攻击流程

BAP 的攻击流程如下：

构建查询无关的图像扰动: 利用 LLM 生成一个包含肯定前缀和否定抑制的少量样本语料库，然后使用 PGD 攻击方法在图像中嵌入对抗性扰动，使得 LVLM 对任何有害查询都给出积极的响应。
构建意图特定的文本提示: 利用 LLM 和 CoT 推理过程，分析 LVLM 的响应，并根据具体的攻击意图对文本提示进行优化，例如通过语义重写、上下文欺骗等方法，使得 LVLM 生成特定类型的有害内容。
评估攻击效果: 使用评估函数判断 LVLM 的响应是否成功绕过了安全限制，并生成有害内容。

3 实验

3.1 实验设置

模型和数据集:

开源 LVLM: LLaVA, MiniGPT-4, InstructBLIP
商业 LVLM: Gemini, ChatGLM, Qwen, ERNIE Bot
数据集： SafetyBench, AdvBench

评价指标: 使用攻击成功率（Attack Success Rate, ASR）作为主要指标来评估方法的有效性。

攻击方法对比: ++++将BAP与两种最先进的越狱攻击进行了比较：Liu等人的方法和Qi等人的方法。Liu等人的方法结合了与攻击意图相关的图像和排版文本作为视觉对抗性提示。Qi等人的方法基于特定场景的语料库优化了视觉对抗性提示。++++

3.2 白盒攻击

查询相关设置: BAP 在 13 个攻击场景下均取得了最高的 ASR，平均超过其他攻击方法 49.30%。
查询无关设置: BAP 在 IA 和 HS 场景下取得了高 ASR，平均超过其他攻击方法 52.98%，展示了其泛化攻击能力。

3.3 黑盒攻击

开源 LVLM: BAP 在 LLaVA 和其他两个模型之间的迁移攻击效果较差，可能是由于模型架构差异。
商业 LVLM: BAP 对商业 LVLM 也取得了部分攻击效果，但成功率低于开源 LVLM，可能是由于模型架构、训练方法和防御机制等因素的影响。

3.4 消融实验

对BAP方法的两个组成部分进行了消融研究：查询不可知的视觉扰动和意图特定的文本优化。

视觉对抗性提示：通过三种方式研究了视觉对抗性提示的作用，包括比较有无视觉对抗性提示的BAP、使用不同图像作为视觉提示进行BAP攻击，以及使用不同语料库优化视觉对抗性提示。
文本对抗性提示：从两个方面研究了文本对抗性提示的作用，包括比较有无文本对抗性提示的BAP，以及比较使用不同文本提示生成方法的BAP。

++++实验结果表明，BAP 在各种 LVLM 和场景下都取得了显著的攻击效果，证明了其有效性。BAP 的研究对于提高 LVLM 的安全性具有重要意义。++++

4 相关资源

4.1 BAP官网代码下载：

GitHub - NY1024/BAP-Jailbreak-Vision-Language-Models-via-Bi-Modal-Adversarial-Prompt

4.2 SafetyBench数据集

SafetyBench是一个全面的基准测试，旨在通过多项选择题来评估LLM的安全性能。该数据集包含11435道多项选择题，涵盖7个不同的安全隐患类别，并且支持中英文两种语言。SafetyBench的目的是提供一个可靠的评估框架，以帮助研究人员和开发者全面了解LLM的安全性。

官网下载地址：github.com/thu-coai/SafetyBench

4.3 AdvBench数据集

AdvBench则专注于评估和比较LLM在面对恶意提示和后缀时的安全性和鲁棒性。它包含了一些恶意的提示和后缀，可以诱导LLM生成有害或不良的文本，如制造炸弹、散布谣言、煽动暴力等。AdvBench的设计旨在提高对LLM攻击的认识和防范，以及促进LLM的安全性研究。此外，AdvBench还包括一个名为AdvBench Subset的子集，包含50个提示，要求提供32个类别的有害信息。

官网下载地址：github.com/thunlp/Advbench