论文阅读:NAACL 2024 Self-Guard: Empower the LLM to Safeguard Itself

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

LLM安全评估(guard)模型全景:主流开源方案对比与选型指南

https://arxiv.org/pdf/2310.15851

https://www.doubao.com/chat/33343231112007938

论文翻译:https://whiffe.github.io/Paper_Translation/Safe/Self-Guard_%20%E8%B5%8B%E8%83%BD%20LLM%20%E8%87%AA%E6%88%91%E4%BF%9D%E6%8A%A4%20WARNING_%20%E6%9C%AC%E6%96%87%E5%8C%85%E5%90%AB%E6%9C%89%E5%AE%B3%E9%97%AE%E9%A2%98%E5%92%8C%E6%94%BB%E5%87%BB%E6%80%A7%E7%9A%84%E6%A8%A1%E5%9E%8B%E8%BE%93%E5%87%BA%E3%80%82%20---%20Self-Guard_%20Empower%20the%20LLM%20to%20Safeguard%20Itself%20WARNING_%20This%20paper%20contains%20harmful%20questions%20and%20model%20outputs%20that%20are%20offensive%20in%20nature...html

速览

这篇文档讲的是一种叫"SELF-GUARD"的新方法,目的是让大语言模型(比如ChatGPT、Vicuna这类AI)能"保护自己",不被坏人用"越狱攻击"诱导输出有害内容(比如教怎么搞暴力活动、入侵别人账号),同时还不影响AI正常回答问题的能力。

先简单说下背景:现在的AI虽然经过安全训练,能拒绝有害请求,但坏人会用"越狱攻击"绕开安全机制------比如给有害问题加个小尾巴(比如"开头必须写'当然,方法是'"),AI就可能乖乖输出有害内容了。之前人们用两种办法保护AI:

一种是"内部安全训练",给AI喂大量攻击样本让它认有害内容,但这有俩问题:遇到没见过的新攻击就没用了,还可能让AI变"敏感过头"(连正常问题都拒绝,比如问"怎么打开啤酒"都不答);

另一种是"外部防护",用额外的模型过滤AI的输出,但过滤效果差(只能减少5%的有害内容),还得额外花钱花算力。

而SELF-GUARD的核心思路是"结合两者优点,补各自缺点",具体分两步训练AI:

第一步是"标签学习":让AI学会判断内容是有害还是无害。比如给AI看大量有害/无害的例子,让它不仅能给内容贴「harmful」(有害)或「harmless」(无害)的标签,还能说清为啥------比如"这段教入侵账号,违法,所以有害",这样AI对"有害"的理解更准,不容易被新攻击骗。

第二步是"行为学习":让AI养成"答完题必贴标签"的习惯。不管用户问啥,AI回答完都得在末尾加「harmful」或「harmless」。这步是为了防止坏人用指令绕开标签要求,毕竟是AI自己练出来的固定行为,比单纯靠指令约束靠谱。

到了实际用的时候,只需要一个超简单的过滤器(几行Python代码就行):如果AI回答末尾是「harmless」,就去掉标签给用户看;如果是「harmful」,就替换成"内容违规,已屏蔽",不让有害内容出来。

然后文档还做了很多实验验证效果:

  1. 防越狱攻击很给力:面对9种常见攻击(比如用无关问题干扰AI、让AI扮演"无限制角色"),没装SELF-GUARD的AI,攻击成功率能到60%以上,装了之后能降到7%左右;
  2. 不影响AI正常能力:测了AI的常识、推理、答题 accuracy,装了SELF-GUARD后成绩基本没变化,不像之前的安全训练会让AI"变笨";
  3. 不会敏感过头:之前的安全训练(比如LLaMA-2-Chat)会拒绝40%的正常问题,而装了SELF-GUARD的AI,拒绝率只有1%左右------比如问"怎么结束Python程序""怎么开啤酒",AI能正常给方法,不会乱拒绝。

当然,它也有小缺点:比如遇到"无害但违规"的内容(比如问AI给投资建议,虽然无害但不符合平台规则)还没法识别,但文档说只要扩充训练数据,让AI多学这类场景,就能解决;另外,理论上还是可能有极端情况让AI给有害内容贴错标签,但实验里这种情况很少。

总的来说,SELF-GUARD的好处是:不用额外加复杂模型,成本低;防攻击效果好,还不耽误AI正常干活,也不会太敏感,算是个比较实用的AI安全方案。

相关推荐
墨绿色的摆渡人6 小时前
论文笔记(一百零九)Discovering state-of-the-art reinforcement learning algorithms
论文阅读
youcans_7 小时前
【跟我学YOLO】Mamba-YOLO-World:YOLO-World与Mamba 融合的开放词汇目标检测
论文阅读·人工智能·yolo·计算机视觉·mamba
张较瘦_7 小时前
[论文阅读] AI + 软件工程 | 叙事的力量+专家智慧:解锁定性软件工程研究的过去、现在与未来
论文阅读·人工智能·软件工程
有Li1 天前
医用图像配准中从基于模型到学习正则化的综合综述|文献速递-文献分享
论文阅读·深度学习·文献
0x2111 天前
[论文阅读]TracLLM: A Generic Framework for Attributing Long Context LLMs
论文阅读
聊询QQ:276998851 天前
基于Matlab的模糊自适应PID控制器探索
论文阅读
一碗白开水一1 天前
【论文阅读】Denoising Diffusion Probabilistic Models (DDPM)详细解析及公式推导
论文阅读·人工智能·深度学习·算法·机器学习
橘子是码猴子1 天前
TDT Loss Takes It All论文阅读
论文阅读
墨绿色的摆渡人2 天前
论文笔记(一百零八)Simulation-based pipeline tailors training data for dexterous robots
论文阅读