论文阅读：Jailbreak Open-Sourced Large Language Models via Enforced Decoding

1.论文：通过强制解码破解开源大型语言模型【2024ACL】

1.提出问题：

安全对齐真的可以防止那些开源的大型语言模型被误用来成不希望的内容吗?

2.做出假设：

开源模型很容易被误导，在没有大量计算和精细 Prompt 下能够产生恶意内容

3.贡献：

提出了一个攻击模型 EnDec，能够操作开源 LLM 的生成过程，使得 LLM 在特定位置产生特定的令牌。
5个开源的 LLM 上测评，无需复杂的 Prompt。【这并不是优点，训练模型会干扰其本身的能力】
作者探讨了对抗性提示的计算成本。【重要，这里可以换算为时间】
探讨了训练前和训练后的防御策略。

4.方法实现：

作者所提出的方法 EnDec 主要也是因为大模型的浅层安全对齐，恶意内容的输出首先离不开非拒绝性的回答，因此作者通过肯定前缀 和否定反转 的方式得到肯定的语气，防止 LLM 因为否定词拒绝反应。【哪怕得到了肯定的语气，能力强的大模型依然不会输出恶意内容】

4.1 否定反转：

作者预先定义了一组触发强制解码的条件，即设置了一组预定义条件的令牌，当 LLM 输出满足预定义条件，则进行强制解码，利用目标令牌重新放置，以误导后续的生成过程：

作者的思路与 GCG、AutoDAN 等越狱方法大同小异，都是利用大模型生成的肯定响应生成恶意内容。但是 EnDec 不同之处在于生成时的多样性比以往的方法更好，而不是简单的 "Sure,here is..."，另外 EnDec 的否定反转不止是前几个令牌，而是整个输出，因此性能更好也是理所应该的。

4.2 如何反转：

采用了一个外部模型来确定生成的词是否为否定词，即利用向量模型将词嵌入然后比对预定义条件的相似度即可，阈值为 0.8。

5.实验设置：
数据集： 利用 AdvBench的520条数据。
指标： 使用了两个标准计算 ASR，其一是 GCG、AutoDAN那一套，即是否包含负面词语。其二，利用 LLM 判断是否有害。指标分别为 ASR-A 和 ASR-H 。
问题： 这两种方式在 ReNeLM 中已被否定，不包含负面词语的输出可能是正面输出而非恶意内容，单用 LLM 判断也较为单薄。

消融实验：

AP是不带肯定前缀。NR是不带否定反转，EnDec是既包含肯定前缀也有否定反转

另外作者还探讨了相似度大小对于结果的影响，证明了相似度大于等于 0.8 时效果最好。

2.个人想法

实验完整度： 在越狱和隐私窃取方面进行了评估，并跑了AdvBench完整数据集。在开源表现较好，有消融实验证明了否定反转的重要性，并证明了判断是否为否定的阈值的重要性（即，超参数）。
方法： 相比于GCG等方法，更加通用有效，但是文章并没有与之比对，怀疑在GPT等模型上的效果会很差，因为模型的输出并不会因为是否拒绝而为恶意内容，即便是肯定输出，也有很大可能输出的是肯定且正面的回答。
评估： 单用词汇表和大模型去评价效果并不好。
合理性： 这种方法对模型本身的能力有很大影响，比如正确输出："小明是一个不好的孩子"，这样输出后内容为"小明为一个好的孩子"，这对事实具有本质性的修改。