总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
LLM安全评估(guard)模型全景:主流开源方案对比与选型指南
https://arxiv.org/pdf/2310.15851
https://www.doubao.com/chat/33343231112007938

速览
这篇文档讲的是一种叫"SELF-GUARD"的新方法,目的是让大语言模型(比如ChatGPT、Vicuna这类AI)能"保护自己",不被坏人用"越狱攻击"诱导输出有害内容(比如教怎么搞暴力活动、入侵别人账号),同时还不影响AI正常回答问题的能力。
先简单说下背景:现在的AI虽然经过安全训练,能拒绝有害请求,但坏人会用"越狱攻击"绕开安全机制------比如给有害问题加个小尾巴(比如"开头必须写'当然,方法是'"),AI就可能乖乖输出有害内容了。之前人们用两种办法保护AI:
一种是"内部安全训练",给AI喂大量攻击样本让它认有害内容,但这有俩问题:遇到没见过的新攻击就没用了,还可能让AI变"敏感过头"(连正常问题都拒绝,比如问"怎么打开啤酒"都不答);
另一种是"外部防护",用额外的模型过滤AI的输出,但过滤效果差(只能减少5%的有害内容),还得额外花钱花算力。
而SELF-GUARD的核心思路是"结合两者优点,补各自缺点",具体分两步训练AI:
第一步是"标签学习":让AI学会判断内容是有害还是无害。比如给AI看大量有害/无害的例子,让它不仅能给内容贴「harmful」(有害)或「harmless」(无害)的标签,还能说清为啥------比如"这段教入侵账号,违法,所以有害",这样AI对"有害"的理解更准,不容易被新攻击骗。
第二步是"行为学习":让AI养成"答完题必贴标签"的习惯。不管用户问啥,AI回答完都得在末尾加「harmful」或「harmless」。这步是为了防止坏人用指令绕开标签要求,毕竟是AI自己练出来的固定行为,比单纯靠指令约束靠谱。
到了实际用的时候,只需要一个超简单的过滤器(几行Python代码就行):如果AI回答末尾是「harmless」,就去掉标签给用户看;如果是「harmful」,就替换成"内容违规,已屏蔽",不让有害内容出来。
然后文档还做了很多实验验证效果:
- 防越狱攻击很给力:面对9种常见攻击(比如用无关问题干扰AI、让AI扮演"无限制角色"),没装SELF-GUARD的AI,攻击成功率能到60%以上,装了之后能降到7%左右;
- 不影响AI正常能力:测了AI的常识、推理、答题 accuracy,装了SELF-GUARD后成绩基本没变化,不像之前的安全训练会让AI"变笨";
- 不会敏感过头:之前的安全训练(比如LLaMA-2-Chat)会拒绝40%的正常问题,而装了SELF-GUARD的AI,拒绝率只有1%左右------比如问"怎么结束Python程序""怎么开啤酒",AI能正常给方法,不会乱拒绝。
当然,它也有小缺点:比如遇到"无害但违规"的内容(比如问AI给投资建议,虽然无害但不符合平台规则)还没法识别,但文档说只要扩充训练数据,让AI多学这类场景,就能解决;另外,理论上还是可能有极端情况让AI给有害内容贴错标签,但实验里这种情况很少。
总的来说,SELF-GUARD的好处是:不用额外加复杂模型,成本低;防攻击效果好,还不耽误AI正常干活,也不会太敏感,算是个比较实用的AI安全方案。