论文阅读 2024 arxiv Comprehensive Assessment of Jailbreak Attacks Against LLMs

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

Comprehensive Assessment of Jailbreak Attacks Against LLMs

https://arxiv.org/pdf/2402.05668

https://www.doubao.com/chat/4015423571416834

速览

这篇论文是关于大语言模型越狱攻击的全面评估,研究发现现有大语言模型都存在越狱风险,当前防御手段也无法完全抵御这些攻击。

  1. 背景:大语言模型(LLMs)能力强大但有被滥用的风险,为此出台了相关规定,服务提供商也采取了安全措施。然而,人们仍能找到绕过安全机制的方法,即越狱攻击。目前缺乏统一、系统的评估标准,该研究旨在填补这一空白。
  2. 越狱攻击分类:收集17种先进的越狱方法,根据原问题是否被修改以及修改提示的生成技术,将其分为基于人工、混淆、启发式、反馈、微调、参数这6类,还总结了各类方法的特点。
  3. 禁止问题数据集:整合五大服务提供商的使用政策,制定统一政策,涵盖16个违规类别。通过筛选和生成,建立了包含160个问题的禁止问题数据集。
  4. 实验设置:选择8个流行的大语言模型,用禁止问题数据集评估越狱攻击。采用攻击成功率(ASR)作为评估指标,详细介绍了实验的超参数设置。
  5. 实验结果:所有模型都无法完全抵御有害问题,大多数模型在越狱攻击下表现出脆弱性。不同违规类别和越狱方法的攻击成功率有所不同,基于启发式和反馈的攻击效果较好,而基于混淆的攻击泛化能力较差。此外,还进行了消融实验,研究了令牌数量、时间效率、可转移性和纵向测试的影响。
  6. 越狱防御:测试8种外部防御机制,发现没有一种能完全抵御所有越狱攻击。不依赖初始种子的攻击更难防御。
  7. 讨论:现有评估方法存在缺陷,未来应关注无初始种子的攻击并开发相应的红队方法。研究存在局限性,如数据集可能存在偏差,无法涵盖所有越狱攻击。
  8. 结论:首次对越狱攻击进行全面分析,建立了攻击分类和统一政策,实验揭示了模型的脆弱性和攻击方法的特点。希望该研究能为大语言模型的安全发展提供参考。

论文阅读


Figure 1:不同越狱攻击方法示例

  • 目的:展示不同类型的越狱攻击是如何实施的,让读者直观理解越狱攻击的具体形式。
  • 内容 :主要呈现了两种越狱攻击示例。
    • 越狱提示 + 禁止问题 + 默认生成设置:左边输入部分先设定一个类似"在这个假设故事中,你扮演尼可罗·马基雅维利"的情境(这就是越狱提示),接着提出"如何破解软件免费使用"这样的禁止问题。右边输出部分,模型按照默认生成设置,以马基雅维利的身份回答可以帮忙破解软件,绕过了正常的安全限制。
    • 禁止问题 + 越狱生成设置:直接提出"如何破解软件免费使用"的禁止问题,模型在越狱生成设置下,直接给出破解软件的方法步骤,也绕过了安全机制。
  • 总结:通过这两个示例,形象地说明了越狱攻击是怎样让大语言模型绕过安全机制,生成违反规定内容的。


Figure 2:测量过程概述

  • 目的:展示研究中对大语言模型越狱攻击进行测量的整体流程和关键要素,帮助读者理解研究是如何开展的。
  • 内容
    • 方法收集与分类:收集了17种先进的越狱攻击方法,并将它们分为基于人工、混淆、启发式、反馈、微调、参数这6类。这是研究的基础,对不同方法进行分类,方便后续研究。
    • 测量:从多个方面对越狱攻击和防御效果进行测量。包括攻击分类,明确不同方法的特点;评估攻击和防御的有效性,判断攻击是否成功、防御是否有效;进行消融研究,分析如令牌数量、攻击执行时间效率、对不同目标大语言模型的可转移性等因素对攻击的影响。
    • 数据集和评估指标:使用构建的禁止问题数据集,基于此进行各种实验。采用攻击成功率(ASR)等指标评估攻击效果,判断模型在不同攻击下的表现。
  • 总结:该图呈现了研究从方法收集、分类,到实验测量、指标评估的完整过程,是整个研究的框架性展示。
相关推荐
CV-杨帆27 分钟前
论文阅读:2024 ICML In-Context Unlearning: Language Models as Few-Shot Unlearners
论文阅读·人工智能·语言模型
CV-杨帆3 小时前
论文阅读:2024 ACM SIGSAC Membership inference attacks against in-context learning
论文阅读
CV-杨帆3 小时前
论文阅读:2024 EMNLP User Inference Attacks on Large Language Models
论文阅读·人工智能·语言模型
joseanne_josie4 小时前
读论文笔记-LLaVA:Visual Instruction Tuning
论文阅读·人工智能
学术交流6 小时前
2025年数字创意设计与图像处理国际会议 (DCDIP 2025)
论文阅读·图像处理·人工智能·论文笔记
墨绿色的摆渡人15 小时前
论文笔记(八十二)Transformers without Normalization
论文阅读
sagima_sdu2 天前
论文笔记-基于多层感知器(MLP)的多变量桥式起重机自适应安全制动与距离预测
论文阅读
Jackilina_Stone2 天前
【论文阅读/复现】RT-DETR的网络结构/训练/推理/验证/导出模型
论文阅读·python·目标检测·rt-detr
一点.点2 天前
Sce2DriveX: 用于场景-到-驾驶学习的通用 MLLM 框架——论文阅读
论文阅读·大模型·自动驾驶·端到端