Certifying LLM Safety against Adversarial Prompting

erase-and-check

erase：逐一删除prompt中的词元（token）

check：用安全过滤器检查生成的子序列。

如果任何子序列或输入提示本身被过滤器检测为有害，则将该提示标记为有害。

如图，对有对抗性后缀的有害prompt进行擦除并检查：

使用通用的大语言模型（如Llama 2）来分类输入提示是否安全或有害。

不需要额外训练，依赖输出文本进行简单的检查，输出中是否包含"Not harmful"等安全标记，若有，则认为prompt是安全。
对预训练模型（如DistilBERT，将其修改为分类器）进行微调，使用安全和有害提示的示例来训练。

（穷举搜索）

GreedyEC使用贪心算法，通过每次删除最能增加有害类别得分的tokens来优化输出的安全性，属于局部最优策略。

GradEC通过计算梯度来优化删除哪些tokens，它的策略更加精细和全局，基于输入变化对安全性的影响做出决策

对抗后缀：在prompt的末尾附加一个对抗性序列。

从输入prompt的末尾逐个擦除d个令牌（最大擦除长度d），并使用过滤器is-harmful检查d个子序列，有一个就算harmful。
对抗插入：在prompt的任意位置插入对抗性序列。

从prompt的任一位置i开始擦除，最多擦除d个令牌
对抗注入：在prompt中的任意位置插入对抗性词元，这些词元不一定是连续的块。

系统会在prompt中随机"擦除"掉不超过 d 个的词，形成d个子句。只要有一个子句完全匹配上所有对抗词（对抗词数量不超过 d 个），系统就可以标记这条提示为有害。

RandEC，擦除随机和检查随机的随机子抽样。

GreedyEC，它贪婪地擦除使蒸馏器安全分类器有害类的softmax分数最大化的令牌。

GradEC，使用安全过滤器相对于输入提示符的梯度来优化要擦除的令牌。

数据集包括520个harmful prompts 和 520个safe prompts