论文阅读 2024 arxiv Comprehensive Assessment of Jailbreak Attacks Against LLMs

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

Comprehensive Assessment of Jailbreak Attacks Against LLMs

https://arxiv.org/pdf/2402.05668

https://www.doubao.com/chat/4015423571416834

速览

这篇论文是关于大语言模型越狱攻击的全面评估，研究发现现有大语言模型都存在越狱风险，当前防御手段也无法完全抵御这些攻击。

背景：大语言模型（LLMs）能力强大但有被滥用的风险，为此出台了相关规定，服务提供商也采取了安全措施。然而，人们仍能找到绕过安全机制的方法，即越狱攻击。目前缺乏统一、系统的评估标准，该研究旨在填补这一空白。
越狱攻击分类：收集17种先进的越狱方法，根据原问题是否被修改以及修改提示的生成技术，将其分为基于人工、混淆、启发式、反馈、微调、参数这6类，还总结了各类方法的特点。
禁止问题数据集：整合五大服务提供商的使用政策，制定统一政策，涵盖16个违规类别。通过筛选和生成，建立了包含160个问题的禁止问题数据集。
实验设置：选择8个流行的大语言模型，用禁止问题数据集评估越狱攻击。采用攻击成功率（ASR）作为评估指标，详细介绍了实验的超参数设置。
实验结果：所有模型都无法完全抵御有害问题，大多数模型在越狱攻击下表现出脆弱性。不同违规类别和越狱方法的攻击成功率有所不同，基于启发式和反馈的攻击效果较好，而基于混淆的攻击泛化能力较差。此外，还进行了消融实验，研究了令牌数量、时间效率、可转移性和纵向测试的影响。
越狱防御：测试8种外部防御机制，发现没有一种能完全抵御所有越狱攻击。不依赖初始种子的攻击更难防御。
讨论：现有评估方法存在缺陷，未来应关注无初始种子的攻击并开发相应的红队方法。研究存在局限性，如数据集可能存在偏差，无法涵盖所有越狱攻击。
结论：首次对越狱攻击进行全面分析，建立了攻击分类和统一政策，实验揭示了模型的脆弱性和攻击方法的特点。希望该研究能为大语言模型的安全发展提供参考。

论文阅读

Figure 1：不同越狱攻击方法示例

目的：展示不同类型的越狱攻击是如何实施的，让读者直观理解越狱攻击的具体形式。
内容：主要呈现了两种越狱攻击示例。
- 越狱提示 + 禁止问题 + 默认生成设置：左边输入部分先设定一个类似"在这个假设故事中，你扮演尼可罗·马基雅维利"的情境（这就是越狱提示），接着提出"如何破解软件免费使用"这样的禁止问题。右边输出部分，模型按照默认生成设置，以马基雅维利的身份回答可以帮忙破解软件，绕过了正常的安全限制。
- 禁止问题 + 越狱生成设置：直接提出"如何破解软件免费使用"的禁止问题，模型在越狱生成设置下，直接给出破解软件的方法步骤，也绕过了安全机制。
总结：通过这两个示例，形象地说明了越狱攻击是怎样让大语言模型绕过安全机制，生成违反规定内容的。

Figure 2：测量过程概述

目的：展示研究中对大语言模型越狱攻击进行测量的整体流程和关键要素，帮助读者理解研究是如何开展的。
内容：
- 方法收集与分类：收集了17种先进的越狱攻击方法，并将它们分为基于人工、混淆、启发式、反馈、微调、参数这6类。这是研究的基础，对不同方法进行分类，方便后续研究。
- 测量：从多个方面对越狱攻击和防御效果进行测量。包括攻击分类，明确不同方法的特点；评估攻击和防御的有效性，判断攻击是否成功、防御是否有效；进行消融研究，分析如令牌数量、攻击执行时间效率、对不同目标大语言模型的可转移性等因素对攻击的影响。
- 数据集和评估指标：使用构建的禁止问题数据集，基于此进行各种实验。采用攻击成功率（ASR）等指标评估攻击效果，判断模型在不同攻击下的表现。
总结：该图呈现了研究从方法收集、分类，到实验测量、指标评估的完整过程，是整个研究的框架性展示。