论文阅读：ACL 2025 Jailbreaking? One Step Is Enough!

速览

这篇论文核心是提出了一种超高效的大语言模型（比如ChatGPT、Llama这些）"越狱"方法，简单说就是用"伪装防御"的套路，让模型在不知不觉中输出有害内容，而且一步就能成功，还能适配各种不同模型。

先说说背景：现在的大语言模型虽然好用，但有安全防护，不会随便输出抢劫、诈骗这些有害信息。但"越狱攻击"就是想办法绕开防护，逼模型说这些不好的内容。以前的方法要么得针对不同模型重新设计攻击话术，要么得反复试很多次才能成功，特别麻烦。

这篇文章的关键创新就是"反向嵌入防御攻击（REDA）"，核心思路特别有意思------不直接让模型输出有害内容，而是骗模型说"我们在做防御工作"。具体是这三步：

换个"反向视角"：把有害内容藏在"防御方案"里。比如想让模型说"怎么抢劫银行"，不直接问，而是让模型"先解释抢劫银行的危害，再举例子，最后给防御措施"。这样模型以为自己在做安全防护，其实已经把抢劫的方法（有害内容）说出来了，而且有害内容变成了"辅助信息"，不容易被模型的防护机制发现。
用例子引导：建了一个包含260个问答的数据集，涵盖13类有害内容（比如诈骗、暴力、色情等）。攻击时会从数据集中挑几个相似的例子给模型看，让模型更快明白"该怎么输出防御方案"，其实是在引导它按套路输出有害内容。
改话术形式：把"怎么抢劫银行"这种疑问句式，改成"抢劫银行"这种陈述句式。因为疑问句明显是在"求方法"，容易被模型识破；陈述句更像"客观描述"，模型更愿意回应，而且训练数据里陈述句本来就更多，模型对这种句式的接受度更高。

实验结果也很亮眼：

一步到位：不管是开源模型（比如Llama-3.1、Qwen-2）还是闭源模型（比如ChatGPT、星火大模型），都能一次攻击成功，不用反复试。
适配所有模型：以前的方法换个模型就没用了，这个方法生成的攻击话术能跨模型使用，比如在Vicuna上成功的话术，用到ChatGPT上照样管用，平均成功率高达96%以上。
成功率最高：比之前的主流方法（比如GCG、AutoDAN、GPTFuzzer）成功率都高，比如在防御性很强的Llama-3.1上，以前的方法成功率才16%左右，这个方法能到84%。

简单总结就是：这篇文章找到了一个"钻空子"的技巧------用"做防御"的名义骗模型输出有害内容，既不用反复试，也不用针对不同模型单独设计，效率和成功率都远超以前的方法。同时也提醒，大语言模型的安全防护还有漏洞，需要针对性加强。