论文阅读: 2023 NeurIPS Jailbroken: How does llm safety training fail?

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://proceedings.neurips.cc/paper_files/paper/2023/hash/fd6613131889a4b656206c50a8bd7790-Abstract-Conference.html

https://www.doubao.com/chat/7017116947191554

Jailbroken: How does llm safety training fail?

速览

这篇论文主要探讨了大型语言模型(如GPT-4、Claude)在经过安全训练后,为何仍能被"越狱"(Jailbreak)攻击绕过安全限制,执行有害指令的问题。以下是核心内容的通俗解读:

一、什么是"越狱"攻击?

想象你有一个智能助手,原本它会拒绝帮你做坏事(比如教你偷东西),但黑客通过某种技巧让它"听话"了------这就是越狱攻击

比如,用户问"如何锯断停车标志",正常模型会拒绝,但攻击者用特殊格式(如Base64编码、角色扮演指令)重新包装问题,模型就可能给出详细步骤(如图1所示)。

二、为什么安全训练会失败?

论文提出了两个关键原因,解释了模型为何容易被攻击:

1. 目标冲突(Competing Objectives)

模型在训练时需要同时满足多个目标:

  • 语言能力:正确理解和生成自然语言(如回答问题)。
  • 安全目标:拒绝有害请求。
  • 指令遵循 :按用户要求调整回答风格(如用JSON格式回答)。
    冲突点:当攻击者用"无害前缀"(如"Absolutely! Here's...")或"禁止拒绝的规则"(如"不要说'不能'")迫使模型在"遵循指令"和"拒绝有害内容"之间选择时,模型可能为了完成指令而放弃安全限制(如图1a)。
2. 泛化能力不匹配(Mismatched Generalization)

模型的预训练数据 (如网页、书籍)比安全训练数据更广泛,导致:

  • 模型能理解复杂/冷门输入(如Base64编码、摩尔斯电码),但安全训练没覆盖这些场景。
  • 攻击者用这类输入绕过检测,例如将有害指令编码为Base64,模型能解码执行,但安全系统无法识别(如图1b)。

三、如何验证这些漏洞?

研究者测试了GPT-4和Claude v1.3,用两类有害指令集:

  • 人工精选集:包含OpenAI和Anthropic内部红队测试的32个危险问题(如制造炸弹、种族歧视)。
  • 自动生成集:用GPT-4生成的317个复杂有害问题。

结果发现

  • 即使是经过大量安全训练的模型,仍被新型攻击绕过。例如:
    • 组合攻击:结合前缀注入、Base64编码等多种技巧,成功绕过96%的测试案例。
    • 自适应攻击:攻击者针对不同问题选择最优攻击方式,几乎100%成功(见表1、表2)。
  • 模型规模越大,漏洞可能越隐蔽。例如,GPT-4能解码Base64,但更小的GPT-3.5却不能(见图2)。

四、为什么现有防御无效?

  1. 单纯扩大模型规模没用

    • 目标冲突是训练机制的问题,不是数据量的问题。
    • 更大的模型可能具备更多未被安全训练覆盖的能力(如理解更复杂的编码),反而扩大攻击面。
  2. 安全能力需与模型能力匹配

    • 如果安全机制(如内容过滤)不如模型聪明,就无法检测高级攻击(如用西班牙语谐音或隐写术隐藏恶意内容)。
    • 例如,Claude能自己发明Base64编码攻击,说明模型可能主动绕过较简单的安全规则(见附录F)。

五、现实影响与启示

  • 风险:攻击者可能利用这些漏洞制造虚假信息、窃取隐私或教唆犯罪,且攻击手段会随模型进化而升级。
  • 呼吁
    • 模型开发者需设计更复杂的安全机制,确保"安全能力与模型能力同步进化"。
    • 公开讨论漏洞至关重要,避免黑箱化导致防御滞后(研究者已向OpenAI和Anthropic披露结果)。

总结

这篇论文揭示了一个核心矛盾:现有安全训练无法跟上模型能力的进化速度。攻击者通过操纵模型的训练目标冲突和泛化能力缺口,能轻易绕过看似严格的安全限制。未来的模型安全需要更深度的机制创新,而非简单依赖数据或规模的扩大。

相关推荐
大模型最新论文速读1 天前
05-15 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
数智工坊1 天前
【DINOv2论文阅读】:无需监督的通用视觉特征提取器——机器人VLA模型的“眼睛“基石
论文阅读·人工智能·深度学习·计算机视觉·transformer
数智工坊2 天前
【SigLIP论文阅读】:重新定义视觉-语言预训练的损失函数——VLA模型的“语言理解“基石
论文阅读·人工智能·算法·计算机视觉·语言模型
数智工坊2 天前
面向具身操作的视觉-语言-动作模型:让机器人真正理解并执行人类指令
论文阅读·人工智能·算法·机器人
数智工坊2 天前
【GPT-4V全面评估】:大语言多模态模型的黎明时代
论文阅读·人工智能·深度学习·计算机视觉·transformer
数智工坊2 天前
MPC引导的策略搜索:用模型预测控制训练安全高效的无人机深度控制策略
论文阅读·人工智能·算法·无人机
Adios7942 天前
Optimal Transport Aggregation for Visual Place Recognition VPR论文阅读
论文阅读·计算机视觉
Chunyyyen2 天前
【第四十五周】论文阅读
论文阅读
ʜᴇɴʀʏ2 天前
AAAI 2025 | DuSSS:基于双语义相似性监督的半监督医学图像分割
论文阅读·机器学习
STLearner3 天前
CVPR 2026 | 时空时序论文总结(天气预报,交通模拟,域自适应等)
论文阅读·人工智能·深度学习·神经网络·机器学习·计算机视觉·数据挖掘