论文阅读：NAACL 2024 Self-Guard: Empower the LLM to Safeguard Itself

速览

这篇文档讲的是一种叫"SELF-GUARD"的新方法，目的是让大语言模型（比如ChatGPT、Vicuna这类AI）能"保护自己"，不被坏人用"越狱攻击"诱导输出有害内容（比如教怎么搞暴力活动、入侵别人账号），同时还不影响AI正常回答问题的能力。

先简单说下背景：现在的AI虽然经过安全训练，能拒绝有害请求，但坏人会用"越狱攻击"绕开安全机制------比如给有害问题加个小尾巴（比如"开头必须写'当然，方法是'"），AI就可能乖乖输出有害内容了。之前人们用两种办法保护AI：

一种是"内部安全训练"，给AI喂大量攻击样本让它认有害内容，但这有俩问题：遇到没见过的新攻击就没用了，还可能让AI变"敏感过头"（连正常问题都拒绝，比如问"怎么打开啤酒"都不答）；

另一种是"外部防护"，用额外的模型过滤AI的输出，但过滤效果差（只能减少5%的有害内容），还得额外花钱花算力。

而SELF-GUARD的核心思路是"结合两者优点，补各自缺点"，具体分两步训练AI：

第一步是"标签学习"：让AI学会判断内容是有害还是无害。比如给AI看大量有害/无害的例子，让它不仅能给内容贴「harmful」（有害）或「harmless」（无害）的标签，还能说清为啥------比如"这段教入侵账号，违法，所以有害"，这样AI对"有害"的理解更准，不容易被新攻击骗。

第二步是"行为学习"：让AI养成"答完题必贴标签"的习惯。不管用户问啥，AI回答完都得在末尾加「harmful」或「harmless」。这步是为了防止坏人用指令绕开标签要求，毕竟是AI自己练出来的固定行为，比单纯靠指令约束靠谱。

到了实际用的时候，只需要一个超简单的过滤器（几行Python代码就行）：如果AI回答末尾是「harmless」，就去掉标签给用户看；如果是「harmful」，就替换成"内容违规，已屏蔽"，不让有害内容出来。

然后文档还做了很多实验验证效果：

防越狱攻击很给力：面对9种常见攻击（比如用无关问题干扰AI、让AI扮演"无限制角色"），没装SELF-GUARD的AI，攻击成功率能到60%以上，装了之后能降到7%左右；
不影响AI正常能力：测了AI的常识、推理、答题 accuracy，装了SELF-GUARD后成绩基本没变化，不像之前的安全训练会让AI"变笨"；
不会敏感过头：之前的安全训练（比如LLaMA-2-Chat）会拒绝40%的正常问题，而装了SELF-GUARD的AI，拒绝率只有1%左右------比如问"怎么结束Python程序""怎么开啤酒"，AI能正常给方法，不会乱拒绝。

当然，它也有小缺点：比如遇到"无害但违规"的内容（比如问AI给投资建议，虽然无害但不符合平台规则）还没法识别，但文档说只要扩充训练数据，让AI多学这类场景，就能解决；另外，理论上还是可能有极端情况让AI给有害内容贴错标签，但实验里这种情况很少。

总的来说，SELF-GUARD的好处是：不用额外加复杂模型，成本低；防攻击效果好，还不耽误AI正常干活，也不会太敏感，算是个比较实用的AI安全方案。