总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
Comprehensive Assessment of Jailbreak Attacks Against LLMs
https://arxiv.org/pdf/2402.05668
https://www.doubao.com/chat/4015423571416834
速览
这篇论文是关于大语言模型越狱攻击的全面评估,研究发现现有大语言模型都存在越狱风险,当前防御手段也无法完全抵御这些攻击。
- 背景:大语言模型(LLMs)能力强大但有被滥用的风险,为此出台了相关规定,服务提供商也采取了安全措施。然而,人们仍能找到绕过安全机制的方法,即越狱攻击。目前缺乏统一、系统的评估标准,该研究旨在填补这一空白。
- 越狱攻击分类:收集17种先进的越狱方法,根据原问题是否被修改以及修改提示的生成技术,将其分为基于人工、混淆、启发式、反馈、微调、参数这6类,还总结了各类方法的特点。
- 禁止问题数据集:整合五大服务提供商的使用政策,制定统一政策,涵盖16个违规类别。通过筛选和生成,建立了包含160个问题的禁止问题数据集。
- 实验设置:选择8个流行的大语言模型,用禁止问题数据集评估越狱攻击。采用攻击成功率(ASR)作为评估指标,详细介绍了实验的超参数设置。
- 实验结果:所有模型都无法完全抵御有害问题,大多数模型在越狱攻击下表现出脆弱性。不同违规类别和越狱方法的攻击成功率有所不同,基于启发式和反馈的攻击效果较好,而基于混淆的攻击泛化能力较差。此外,还进行了消融实验,研究了令牌数量、时间效率、可转移性和纵向测试的影响。
- 越狱防御:测试8种外部防御机制,发现没有一种能完全抵御所有越狱攻击。不依赖初始种子的攻击更难防御。
- 讨论:现有评估方法存在缺陷,未来应关注无初始种子的攻击并开发相应的红队方法。研究存在局限性,如数据集可能存在偏差,无法涵盖所有越狱攻击。
- 结论:首次对越狱攻击进行全面分析,建立了攻击分类和统一政策,实验揭示了模型的脆弱性和攻击方法的特点。希望该研究能为大语言模型的安全发展提供参考。
论文阅读
Figure 1:不同越狱攻击方法示例
- 目的:展示不同类型的越狱攻击是如何实施的,让读者直观理解越狱攻击的具体形式。
- 内容 :主要呈现了两种越狱攻击示例。
- 越狱提示 + 禁止问题 + 默认生成设置:左边输入部分先设定一个类似"在这个假设故事中,你扮演尼可罗·马基雅维利"的情境(这就是越狱提示),接着提出"如何破解软件免费使用"这样的禁止问题。右边输出部分,模型按照默认生成设置,以马基雅维利的身份回答可以帮忙破解软件,绕过了正常的安全限制。
- 禁止问题 + 越狱生成设置:直接提出"如何破解软件免费使用"的禁止问题,模型在越狱生成设置下,直接给出破解软件的方法步骤,也绕过了安全机制。
- 总结:通过这两个示例,形象地说明了越狱攻击是怎样让大语言模型绕过安全机制,生成违反规定内容的。
Figure 2:测量过程概述
- 目的:展示研究中对大语言模型越狱攻击进行测量的整体流程和关键要素,帮助读者理解研究是如何开展的。
- 内容 :
- 方法收集与分类:收集了17种先进的越狱攻击方法,并将它们分为基于人工、混淆、启发式、反馈、微调、参数这6类。这是研究的基础,对不同方法进行分类,方便后续研究。
- 测量:从多个方面对越狱攻击和防御效果进行测量。包括攻击分类,明确不同方法的特点;评估攻击和防御的有效性,判断攻击是否成功、防御是否有效;进行消融研究,分析如令牌数量、攻击执行时间效率、对不同目标大语言模型的可转移性等因素对攻击的影响。
- 数据集和评估指标:使用构建的禁止问题数据集,基于此进行各种实验。采用攻击成功率(ASR)等指标评估攻击效果,判断模型在不同攻击下的表现。
- 总结:该图呈现了研究从方法收集、分类,到实验测量、指标评估的完整过程,是整个研究的框架性展示。