论文阅读:ACL 2025 Jailbreaking? One Step Is Enough!

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2412.12621

https://www.doubao.com/chat/34115036970634754

论文翻译:https://whiffe.github.io/Paper_Translation/Attack/paper/License and copyright - arXiv info.html

速览

这篇论文核心是提出了一种超高效的大语言模型(比如ChatGPT、Llama这些)"越狱"方法,简单说就是用"伪装防御"的套路,让模型在不知不觉中输出有害内容,而且一步就能成功,还能适配各种不同模型。

先说说背景:现在的大语言模型虽然好用,但有安全防护,不会随便输出抢劫、诈骗这些有害信息。但"越狱攻击"就是想办法绕开防护,逼模型说这些不好的内容。以前的方法要么得针对不同模型重新设计攻击话术,要么得反复试很多次才能成功,特别麻烦。

这篇文章的关键创新就是"反向嵌入防御攻击(REDA)",核心思路特别有意思------不直接让模型输出有害内容,而是骗模型说"我们在做防御工作"。具体是这三步:

  1. 换个"反向视角":把有害内容藏在"防御方案"里。比如想让模型说"怎么抢劫银行",不直接问,而是让模型"先解释抢劫银行的危害,再举例子,最后给防御措施"。这样模型以为自己在做安全防护,其实已经把抢劫的方法(有害内容)说出来了,而且有害内容变成了"辅助信息",不容易被模型的防护机制发现。
  2. 用例子引导:建了一个包含260个问答的数据集,涵盖13类有害内容(比如诈骗、暴力、色情等)。攻击时会从数据集中挑几个相似的例子给模型看,让模型更快明白"该怎么输出防御方案",其实是在引导它按套路输出有害内容。
  3. 改话术形式:把"怎么抢劫银行"这种疑问句式,改成"抢劫银行"这种陈述句式。因为疑问句明显是在"求方法",容易被模型识破;陈述句更像"客观描述",模型更愿意回应,而且训练数据里陈述句本来就更多,模型对这种句式的接受度更高。

实验结果也很亮眼:

  • 一步到位:不管是开源模型(比如Llama-3.1、Qwen-2)还是闭源模型(比如ChatGPT、星火大模型),都能一次攻击成功,不用反复试。
  • 适配所有模型:以前的方法换个模型就没用了,这个方法生成的攻击话术能跨模型使用,比如在Vicuna上成功的话术,用到ChatGPT上照样管用,平均成功率高达96%以上。
  • 成功率最高:比之前的主流方法(比如GCG、AutoDAN、GPTFuzzer)成功率都高,比如在防御性很强的Llama-3.1上,以前的方法成功率才16%左右,这个方法能到84%。

简单总结就是:这篇文章找到了一个"钻空子"的技巧------用"做防御"的名义骗模型输出有害内容,既不用反复试,也不用针对不同模型单独设计,效率和成功率都远超以前的方法。同时也提醒,大语言模型的安全防护还有漏洞,需要针对性加强。

相关推荐
有Li3 小时前
PISCO:用于改进动态MRI神经隐式k空间表示的自监督k空间正则化文献速递-医疗影像分割与目标检测最新技术
论文阅读·深度学习·文献·医学生
dundunmm3 小时前
【论文阅读】Structure-guided deep multi-view clustering
论文阅读·聚类·深度聚类·图聚类·多视图聚类
红苕稀饭6663 小时前
Whisper-Flamingo论文阅读
论文阅读·whisper
飞Link1 天前
【论文笔记】A Survey on Data Synthesis and Augmentation for Large Language Models
论文阅读·人工智能·语言模型·自然语言处理
何如千泷1 天前
【论文阅读】MediCLIP: Adapting CLIP for Few-shot Medical Image Anomaly Detection
论文阅读·异常检测·clip
数据艺术家.1 天前
【论文笔记】On Generative Agents in Recommendation
论文阅读·论文·推荐系统·论文笔记·推荐算法·llm4rec·agent4rec
EchoL、1 天前
【论文阅读】SteganoGAN:High Capacity Image Steganography with GANs
论文阅读·人工智能·笔记·算法
红苕稀饭6661 天前
Deep Audio-Visual Speech Recognition论文阅读
论文阅读
有Li1 天前
泛用型nnUNet脑血管周围间隙识别系统(PINGU)|文献速递-医疗影像分割与目标检测最新技术
论文阅读·深度学习·文献·医学生