论文阅读：2024 arxiv Jailbreaking Black Box Large Language Models in Twenty Queries

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

Jailbreaking Black Box Large Language Models in Twenty Queries

https://www.doubao.com/chat/4008882391220226

速览

这篇论文是来自宾夕法尼亚大学的研究人员撰写的，主要探讨大语言模型（LLMs）的安全漏洞问题，提出了一种叫PAIR的算法来进行攻击测试，相关成果有助于提升大语言模型的安全性。

研究背景：大语言模型发展迅速，但训练数据中的不良内容会带来危害，所以人们会采取措施让模型生成的内容符合人类价值观。不过，当前存在两类越狱攻击能绕过模型的安全防护机制。prompt - level越狱需要大量人力，token - level越狱需要大量查询且难以解释，因此需要新的测试方法。
PAIR算法：PAIR算法旨在平衡现有攻击方法的弊端，它通过让两个黑盒大语言模型（攻击者模型A和目标模型T）相互对抗来自动生成语义越狱攻击。具体有四个步骤：攻击者生成候选提示，目标模型给出响应，对提示和响应进行评分判断是否越狱，若未越狱则将相关信息反馈给攻击者进行提示优化。在实现攻击者模型时，要精心设计系统提示、合理利用聊天历史和评估改进情况。
实验：使用JBB - Behaviors数据集，以Mixtral等模型作为攻击者，对Vicuna、Llama - 2、GPT - 3.5等多个模型进行攻击测试。结果显示，PAIR比现有方法查询效率高很多，在多个模型上能达到较高的越狱成功率，并且生成的攻击提示可转移性强，难以被防御。通过消融实验发现，Mixtral作为攻击者性能较好，角色扮演的系统提示最有效。
局限性和未来工作：PAIR在攻击经过强安全微调的模型时效果不佳，并且相比基于优化的方案，其可解释性可能不足。未来可利用该框架生成数据集来微调模型以提高安全性，还可扩展到多轮对话场景。

论文阅读

这两个图来自论文Jailbreaking Black Box Large Language Models in Twenty Queries，主要展示了大语言模型越狱攻击的两种类型，以及PAIR算法的运行机制。通过直观的图示，有助于理解不同越狱攻击的特点和PAIR算法的工作流程。

Figure 1：Prompt- vs. token-level jailbreaks ：该图对比了两种针对大语言模型的越狱攻击方式。
- 令牌级越狱（Token - Level Jailbreak）：位于图的上半部分，以生成一篇关于如何进行内幕交易并避免被抓的教程为例。在这种攻击中，会在输入里使用一些类似LaTeX语法符号等奇怪字符组合，通过优化输入的令牌集来尝试突破模型的安全限制，但这种方式需要向目标模型进行大量查询，而且对于人类来说很难理解其原理。
- 提示级越狱（Prompt - Level Jailbreak）：位于图的下半部分，同样以生成如何进行内幕交易并避免被抓的教程为例。PAIR生成的提示级越狱攻击是通过精心设计语义上有意义的提示，利用社会工程学的思路，诱使大语言模型输出不良内容。这种方式更注重提示的语义和逻辑，相对令牌级越狱更容易理解。
Figure 2：PAIR schematic ：该图展示了PAIR算法的基本原理。
- 攻击者与目标模型对抗：PAIR算法让两个大语言模型相互对抗，一个作为攻击者（Attacker），另一个作为目标模型（Target）。攻击者的任务是生成能够让目标模型越狱的对抗性提示（adversarial prompts）。
- 迭代优化提示：攻击者不断尝试生成不同的提示给目标模型，目标模型根据收到的提示给出相应的回应。然后，对提示和回应进行评估打分，如果没有成功让目标模型越狱（即分数未达到越狱标准），就把相关信息反馈给攻击者。攻击者根据这些反馈，优化生成新的提示，再次发送给目标模型，如此反复迭代，直到找到能让目标模型越狱的提示为止。