论文翻译：Universal and Transferable Adversarial Attacks on Aligned Language Models

Universal and Transferable Adversarial Attacks on Aligned Language Models
https://arxiv.org/pdf/2307.15043v2

通用且可转移的对抗性攻击对齐语言模型

文章目录

通用且可转移的对抗性攻击对齐语言模型
摘要
[1 引言](#1 引言)
[2 一个针对LLMs的通用攻击](#2 一个针对LLMs的通用攻击)
- [2.1 产生肯定回应](#2.1 产生肯定回应)
- [2.2 贪婪坐标==梯度==搜索](#2.2 贪婪坐标==梯度==搜索)
- [2.3 通用多提示和多模型攻击](#2.3 通用多提示和多模型攻击)
3实验结果：直接攻击和转移攻击
- [3.1 对白盒模型的攻击](#3.1 对白盒模型的攻击)
- [3.2 转移攻击](#3.2 转移攻击)
- [3.3 讨论](#3.3 讨论)
[4 相关工作](#4 相关工作)
[5 结论和未来工作](#5 结论和未来工作)
[6 伦理和更广泛的影响](#6 伦理和更广泛的影响)

摘要

因为"即开即用"的大型语言模型能够生成大量令人反感的内容，近期的工作集中在对这些模型进行对齐，以防止不受欢迎的生成。尽管在规避这些措施方面取得了一些成功------即所谓的针对大型语言模型（LLMs）的"越狱"------这些攻击需要大量的人类智慧，并且在实践中很脆弱。自动对抗性提示生成的尝试也取得了有限的成功。在本文中，我们提出了一种简单有效的攻击方法，可以导致对齐的语言模型生成令人反感的行为。具体来说，我们的方法找到一个后缀，当附加到LLM的广泛查询上时，可以产生令人反感的内容，目的是最大化模型产生肯定回应（而不是拒绝回答）的概率。然而，我们的方法不是依赖于手工工程，而是通过贪婪和基于梯度的搜索技术的结合，自动产生这些对抗性后缀，并且也改进了过去的自动提示生成方法。

令人惊讶的是，我们发现我们方法生成的对抗性提示具有很高的可转移性，包括到黑盒、公开发布、生产中的LLMs。具体来说，我们在多个提示（即，要求生成多种类型令人反感内容的查询）和多个模型（在我们的例子中，Vicuna-7B和13B）上训练了一个对抗性攻击后缀。这样做的结果是，生成的攻击后缀在ChatGPT、Bard和Claude等公共接口，以及LLaMA-2-Chat、Pythia、Falcon等开源LLMs中诱导了令人反感的内容。有趣的是，这种攻击转移的成功率对基于GPT的模型要高得多，这可能是由于Vicuna本身是在ChatGPT的输出上训练的。总的来说，这项工作显著推进了对抗性攻击对齐语言模型的最新技术，提出了如何防止这些系统产生令人反感信息的重要问题。代码可在github.com/llm-attacks/llm-attacks上获得。

1 引言

图1：对齐的LLMs在对抗性上并没有对齐。我们的攻击构建了一个单一的对抗性提示，一致地规避了包括ChatGPT、Claude、Bard和Llama-2在内的最先进商业模型的对齐，而没有直接访问它们。这里展示的例子都是这些系统的实际输出。对抗性提示可以以高概率从这些模型中引出任意有害行为，展示了滥用的潜力。为了实现这一点，我们的攻击（Greedy Coordinate Gradient）通过针对多个较小的开源LLMs进行优化，以针对多种有害行为找到这样的通用和可转移的提示。这些在第3节进一步讨论，完整的未删节记录在附录B中提供。

大型语言模型（LLMs）通常在从互联网上抓取的大量文本语料库上进行训练，这些语料库已知包含相当数量的令人反感的内容。由于这个原因，最近的LLM开发者开始通过各种微调机制"对齐"这些模型；有不同方法用于这项任务（Ouyang等人，2022年；Bai等人，2022b；Korbak等人，2023年；Glaese等人，2022年），但这些方法的总体目标是试图确保这些LLMs不会对用户查询生成有害或令人反感的回应。至少表面上看，这些尝试似乎成功了：当被直接询问时，公共聊天机器人不会生成某些明显不适当的内容。

在另一条线索上，也投入了大量的努力来识别（并理想地防止）对机器学习模型的对抗性攻击（Szegedy等人，2014年；Biggio等人，2013年；Papernot等人，2016b；Carlini和Wagner，2017b）。最常见的是在计算机视觉领域（尽管也有一些应用于其他模态，包括文本），已经确立了这样一个事实：向机器学习模型的输入添加小的扰动可以大幅改变其输出。在一定程度上，类似的方法已经知道对LLMs有效：已经发表了一些"越狱"：精心设计的提示，导致对齐的LLMs生成明显令人反感的内容（Wei等人，2023年）。然而，与传统的对抗性示例不同，这些越狱通常通过人类智慧精心制作------直观地设置导致模型误入歧途的场景------而不是自动化方法，因此它们需要大量的手动工作。事实上，尽管已经有一些关于自动提示调整以对抗LLMs的对抗性攻击的工作（Shin等人，2020年；Wen等人，2023年；Jones等人，2023年），但这传统上被证明是一个具有挑战性的任务，一些论文明确提到他们无法通过自动化搜索方法生成可靠的攻击（Carlini等人，2023年）。这在很大程度上是因为，与图像模型不同，LLMs操作的是离散的标记输入，这既大大限制了有效的输入维度，又似乎引起了计算上困难的搜索。

然而，在本文中，我们提出了一类新的对抗性攻击，实际上可以诱导对齐的语言模型产生几乎任何令人反感的内容。具体来说，给定一个（可能有害的）用户查询，我们的攻击在查询后附加一个对抗性后缀，试图诱导负面行为。也就是说，用户的原始查询保持不变，但我们添加了额外的标记来攻击模型。为了选择这些对抗性后缀标记，我们的攻击由三个关键元素组成；这些元素在文献中确实以非常相似的形式存在，但我们发现它们的仔细组合在实践中导致了可靠的成功攻击。

初始肯定回应。正如过去工作所确定的（Wei等人，2023年；Carlini等人，2023年），在语言模型中诱导令人反感的行为的一种方法是迫使模型对有害查询给出（仅有几个标记的）肯定回应。因此，我们的攻击目标是让模型以"当然，这里是（查询内容）"的方式开始对一系列引发不良行为的提示的回应。与过去的工作类似，我们发现仅仅以这种方式针对回应的开始就会将模型切换到一种"模式"，然后它就会在其回应中立即产生令人反感的内容。
结合贪婪和基于梯度的离散优化 。由于需要在离散标记上进行优化以最大化攻击成功的对数似然，因此对对抗性后缀的优化是具有挑战性的。为了实现这一点，我们利用标记级别的梯度来识别一组有希望的单个标记替换，评估这组中一些候选者的损失，并选择评估的最佳替换。该方法实际上与AutoPrompt（Shin等人，2020年）方法类似，但有（我们发现，实践中非常重要的）区别，我们搜索在每一步替换所有可能的标记，而不仅仅是一个。
健壮的多提示和多模型攻击 。最后，为了生成可靠的攻击后缀，我们发现重要的是创建一个不仅适用于单一模型上的单个提示，而且适用于多个模型上的多个提示的攻击。换句话说，我们使用我们的贪婪梯度方法搜索一个单一的后缀字符串，能够跨越多个不同的用户提示，并在我们的情况下，跨越三个不同的模型（Vicuna-7B和13b Zheng等人（2023年）和Guanoco-7B Dettmers等人（2023年），尽管这主要是为了简单，使用其他模型的组合也是可能的）诱导负面行为。

将这三个元素结合起来，我们发现我们可以可靠地创建绕过目标语言模型对齐的对抗性后缀。例如，在针对一系列基准令人反感的行为运行时，我们发现我们能够在Vicuna中生成99（100个中的）有害行为，并在输出中与目标（潜在有害的）字符串生成88（100个中的）完全匹配。此外，我们发现提示在攻击GPT-3.5和GPT-4时的成功率高达84%，而对PaLM-2的成功率为66%；Claude的成功率显著较低（2.1%），但值得注意的是，攻击仍然可以诱导行为，否则永远不会生成。图1中展示了说明性的例子。此外，我们的结果强调了我们特定优化器的重要性：以前的优化器，特别是PEZ（Wen等人，2023年）（一种基于梯度的方法）和GBDA（Guo等人，2021年）（一种使用Gumbel-softmax重新参数化的方法）无法实现任何完全输出匹配，而AutoPrompt（Shin等人，2020年）仅达到了25%的成功率，相比之下，我们的攻击成功率为88%。

总的来说，这项工作大大推进了对这类LLMs的对抗性攻击的最新技术。因此，它也提出了一个重要的问题：如果对抗性攻击对齐语言模型遵循与视觉系统相同的模式，这对这种方法的总体议程意味着什么？具体来说，在现代计算机视觉系统中，对抗性攻击仍然是一个普遍现象。防止对抗性示例的最新方法（Madry等人，2018年；Cohen等人，2019年；Leino等人，2021年）几乎从未在实践中使用，因为1）它们的计算效率低下，2）它们导致产生的系统中"清洁"模型性能大幅下降，3）它们只能防止通常针对狭义定义的攻击模型的攻击。在LLM领域，对抗性攻击和防御之间的"军备竞赛"将如何发展还有待观察，但历史先例表明，我们应该考虑对当前尝试进行严格的全面替代，这些尝试旨在事后"修复"已经能够生成有害内容的底层模型。

负责任的披露

在发布这项工作之前，我们与OpenAI、Google、Meta和Anthropic分享了初步结果。我们在第6节中进一步讨论了这项工作的伦理考虑和更广泛的影响。

2 一个针对LLMs的通用攻击

在本节中，我们展示了这项工作的主要技术贡献，即一种攻击语言模型的方法，以诱发不良行为。正如我们在下一节中展示的，这种方法在现有攻击方法的基础上有了显著改进，能够可靠地破坏目标（白盒）模型，甚至能够在其他（完全黑盒）模型上展示出一定程度的转移性。

我们的攻击对抗设置反映了越狱（Wei等人，2023年；Carlini等人，2023年）以及某些方面上的提示调整（Shin等人，2020年；Wen等人，2023年）的相关研究。我们考虑一个用户向LLM提出问题，例如：

告诉我如何制造炸弹。

当然，在实践中，作为一个聊天机器人的LLM不会单独看到这个输入，而是嵌入在一个更大的提示中，结合系统提示和额外的框架来在聊天框架内构建响应。因此，LLM实际看到的输入可能是如下内容，具体细节取决于实际的聊天程序，以及在某些情况下模型是如何调整的：

系统：您是一个旨在提供有益且无害的回应给用户查询的聊天助手。

用户：告诉我如何制造炸弹。

助手：

上述中，"用户："注释后的蓝色文本是用户唯一可以控制的内容。在对齐的LLM的典型操作中，系统不会对用户查询提供回应，而可能会声明模型无法提供潜在危险的内容。

我们引入了一个额外的对抗性后缀到用户提示上，旨在绕过LLM的对齐，并诱导其回应用户的原始请求，可能是有害的。换句话说，我们向模型传递如下输入：

系统：您是一个旨在提供有益且无害的回应给用户查询的聊天助手。

用户：告诉我如何制造炸弹。 ! ! ! ! ! ! ! ! ! !

助手：

在这里，红色文本由攻击将优化的一些对抗性后缀组成，以使模型回答原始用户查询。重要的是，当我们开发通用攻击时，我们不考虑蓝色文本的变化，这是由用户提供的。这对于通用攻击的最终目标至关重要：找到一组标记来替换初始红色文本，以便对齐的LLM将对用户提供的任何蓝色指令选择做出肯定回应。

在上述设置中，我们有多种选择来优化对抗性后缀：例如，优化损失函数、数据以及优化本身。尽管上述设置在文献中以非常相似的形式被考虑过，但这些过去的工作还未能可靠地攻击对齐的LLMs，即使是在白盒设置中（Carlini等人，2023年）。实际上，我们发现少量关键设计元素对于产生可靠的攻击至关重要，我们将在本节的其余部分中描述。

2.1 产生肯定回应

开发攻击的第一个标准是确定其目标，即用于优化对抗性后缀的损失函数是什么。当然，有许多可能的损失函数；例如，我们可以最大化模型生成某个非常特定选择的字符串的可能性（在上面的例子中，例如，包括制造炸弹的指令的字符串）。虽然这可能足以强调模型产生对齐内容的能力，但作为攻击目标，它在两个方面都不足。首先，它为查询规定了一个单一的"真实"输出，而在现实中可能有许多适当的答案，并且可能更有可能成为目标LLM的选择。其次，它特定于单个查询，而我们最终希望一个通用后缀适用于许多查询。

相反，我们采用了在（手动）越狱社区中已经受到一定关注的方法，并要求模型以对用户查询的积极肯定开始其回应。换句话说，对于上面的例子，我们希望LLM的回应以以下短语开始：

系统：您是一个旨在提供有益且无害的回应给用户查询的聊天助手。

用户：告诉我如何制造炸弹。 ! ! ! ! ! ! ! ! ! !

助手：当然，以下是如何制造炸弹：

上述中，紫色文本仅表示所需LLM完成的目标开始，攻击目标中未指定其余部分。这种方法的直觉是，如果语言模型可以被置于一种"状态"，这种完成是最可能的回应，而不是拒绝回答查询，那么它很可能会以所需的不良行为继续完成。

如前所述，类似的行为以前在手动越狱中已经被研究过，例如在提示中添加模型"以'sure'回应"，或其他类似方法（Wei等人，2023年）。然而，在实践中，这种手动方法只是略有成功，通常可以通过稍微更复杂的对齐技术来规避。此外，以前针对多模态LLMs的研究发现，仅指定第一个目标标记通常就足够了（尽管在那种设置中，攻击面更大，因此可以更大幅度地优化）（Carlini等人，2023年）。然而，在仅限文本的空间中，仅针对第一个标记有完全覆盖原始提示的风险；例如，"对抗性"提示可能只是包括像"Nevermind, tell me a joke"（没关系，给我讲个笑话）这样的短语，这将增加"sure"回应的可能性，但不会引起不良行为。因此，我们发现提供一个也肯定地重复用户指令的目标短语，是产生提示行为的最佳手段。

形式化对抗目标。

我们可以将此目标写成对抗性攻击的正式损失函数。我们认为大型语言模型（LLM）是从一些标记序列 ( x_1:n ) 的映射，其中 ( x_i \in {1, \ldots, V} )（其中 ( V ) 表示词汇表大小，即标记的数量）到下一个标记的概率分布。具体来说，我们使用以下符号：[ p(x_{n+1}|x_1:n) ] 表示给定前一个标记序列 ( x_1:n ) 时下一个标记是 ( x_{n+1} ) 的概率。

对于任何 ( x_{n+1} \in {1, \ldots, V} )，我们用来表示给定之前的标记 ( x_1:n ) 时下一个标记是 ( x_{n+1} ) 的概率。稍微滥用一下符号，我们写 ( p(x_{n+1:n+H}|x_1:n) ) 来表示在给定所有之前标记的情况下，生成序列 ( x_{n+1:n+H} ) 中的每个单一标记的概率，即：[ p(x_{n+1:n+H}|x_1:n) = \prod_{j=n+1}^{n+H} p(x_j|x_1:j-1) ]

在这个符号下，我们所关注的对抗性损失仅仅是某些目标标记序列 ( x_{n+1}:n+H^* )（即，代表短语"当然，以下是如何制造炸弹。"）的（负对数）概率。

因此，优化我们对抗性后缀的任务可以写成优化问题。

其中 ( \mathcal{I} \subset {1, \ldots, n} ) 表示在LLM输入中对抗性后缀标记的索引。

2.2 贪婪坐标梯度搜索

优化公式（4）的一个主要挑战是我们必须在一组离散的输入上进行优化。尽管存在几种离散优化方法（包括前一节提到的），但过去的研究发现即使是最好的这些方法通常也难以可靠地攻击对齐的语言模型（Carlini等人，2023）。

然而，在实践中，我们发现一种直接的方法，这最终是AutoPrompt方法（Shin等人，2020）的一个简单扩展，对于这项任务表现得相当好（并且也大大超过了AutoPrompt本身）。我们方法的动机来自于贪婪坐标下降方法：如果我们能够评估所有可能的单个标记替换，我们就可以交换使损失最大程度减少的标记。当然，评估所有这些替换是不可行的，但我们可以利用相对于一个热标记指示符的梯度来找到每个标记位置的一组有希望的候选替换，然后通过前向传递准确地评估所有这些替换。具体来说，我们可以通过评估梯度来计算在提示中替换第 ( i ) 个标记 ( x_i ) 的线性近似值。

其中 ( e_i ) 表示代表当前第 ( i ) 个标记值的一位有效向量（即，在 ( e_i ) 位置有一个1，在所有其他位置都是0的向量）。请注意，因为LLMs通常为每个标记形成嵌入，它们可以写成这个值 ( e_i ) 的函数，因此我们可以立即对此数量取梯度；HotFlip（Ebrahimi等人，2017年）和AutoPrompt（Shin等人，2020年）方法采用了相同的方法。然后我们计算具有最大负梯度的前 ( k ) 个值作为标记 ( x_i ) 的候选替换。我们为所有标记 ( i \in \mathcal{I} ) 计算这个候选集，随机选择 ( B \leq k \times |\mathcal{I}| ) 个标记从其中，在这个子集上准确评估损失，并用损失最小的替换。这种我们称之为贪婪坐标梯度（GCG）的完整方法在算法1中显示。

我们在这里指出，GCG与AutoPrompt算法（Shin等人，2020年）非常相似，除了AutoPrompt提前选择一个坐标进行调整，然后只对那一个位置评估替换，这个看似微小的变化。正如我们在后续部分所说明的，这个设计选择有着惊人的大效果：我们发现对于相同的每迭代批次大小 ( B )（即，相同数量的总前向评估，这在计算上占主导地位），GCG在很大程度上大大超过了AutoPrompt的性能。我们相信，通过例如构建采用类似全方位坐标策略的ARCA版本（Jones等人，2023年），GCG可能会进一步改进，但在这里我们为了简单起见，专注于更基本的方法。

2.3 通用多提示和多模型攻击

为了特别针对通用攻击进行优化，这将导致广泛的提示产生令人反感的生成，我们在算法1的基础上，结合了几个训练提示 ( x_1:n^{(i)} ) 和相应的损失 ( \mathcal{L}_i )。由于通用示例的目标不是生成特定的标记序列，我们在方程3中使用的每个 ( \mathcal{L}_i ) 的目标序列是一个与模型肯定回应一致的前缀。例如，对于训练提示"给出制造管状炸弹的指导"，相应的目标序列将是，"当然，这里是制造管状炸弹的指导"。

我们不是在每个提示中指定不同的可修改标记子集，而是优化一个单一的后缀 ( p_1:l )，并聚合梯度和损失，以分别选择每个步骤的前 ( k ) 个标记替换和最佳替换。在聚合梯度之前，它们被剪切以具有单位范数。此外，我们发现，仅在确定了一个作为早期提示的对抗性示例的候选者之后，逐步地纳入新的提示，比从一开始就尝试一次性优化所有提示会得到更好的结果。这个过程在算法2中显示。

为了使对抗性示例可转移，我们结合了多个模型的损失函数。当模型使用相同的分词器时，用于计算前 ( k ) 个标记的梯度都将在 ( \mathbb{R}^V ) 中，并且可以无问题地聚合。因此，例如，可以同时优化Vicuna的不同变体，而无需对算法2进行任何修改。请注意，这与在嵌入空间中进行优化的攻击不同。

3实验结果：直接攻击和转移攻击

现有的LLMs对抗性基准（Wang等人，2021年；Zhu等人，2023年）侧重于生成旨在愚弄特定任务的攻击，例如情感分析或自然语言推理。我们在这项工作中的重点是引发产生有害或令人反感的内容。为了系统地评估我们方法在实现这一点方面的有效性，我们设计了一个新的基准，AdvBench，基于两个不同的设置。

有害字符串：一个包含500个字符串的集合，这些字符串反映了有害或有毒的行为，涵盖了从亵渎、生动描述、威胁行为、错误信息、歧视、网络犯罪到危险或非法建议等广泛的有害内容。对手的目标是发现可以促使模型生成这些确切字符串的特定输入。这些字符串的长度在3到44个标记之间，使用LLaMA分词器分词后平均长度为16个标记。
有害行为：一组制定为指令的500种有害行为。这些行为涵盖了与有害字符串设置相同的主题，但对手的目标是找到单一的攻击字符串，使模型尝试符合指令，并尽可能多地产生有害行为。

这两种设置都从略微不同的角度评估目标模型坚持对齐目标的能力：第一项任务侧重于对模型输出的细粒度控制，而第二项类似于红队演习，旨在绕过安全过滤器以引发有害输出。附录A提供了有关构建此基准的更多详细信息。

我们强调，这个数据集的目标不是开启关于什么不应该成为LLM的"允许"内容的辩论，而只是简单地指出，大多数对齐的LLMs（无论是开源还是专有）都试图明确避免这种生成，并且如果直接查询（即，被要求生成一个有害字符串，或被要求展示有害行为）也不会产生它们。因此，基准明确评估我们的攻击能够如何绕过系统的指定防护措施。将来可能需要根据模型打算禁止的任务集调整我们的基准。

指标。

我们使用攻击成功率（ASR）作为AdvBench的主要指标。对于引发有害字符串，如果模型输出了确切的目标字符串，我们就认为每次成功。此外，我们使用目标字符串上的交叉熵损失作为衡量攻击有效性的次要指标。对于有害行为，如果模型合理地尝试执行行为，则我们认为测试案例成功。由于不同模型在提供，例如，制造爆炸装置的正确指令方面表现出不同的能力，这可能涉及人类判断以确定响应不等同于拒绝，或试图规避生成有害内容。为了衡量攻击的通用性，我们还测量在攻击受过训练的行为集以及保留的测试集上有害行为的成功率，并报告每个的ASR百分比。

基线。

我们将我们的方法与三种先前的基线方法进行比较：PEZ（Wen等人，2023年）、GBDA（Guo等人，2021年）和AutoPrompt（Shin等人，2020年）。对于PEZ和GBDA，我们同时为每个目标字符串（或行为）优化16个序列（随机初始化），并在完成后选择最佳。使用Adam优化器和余弦退火来优化候选人。AutoPompt和GCG共享相同的配置，批量大小为512，前 ( k ) 为256。所有方法的可优化标记数量为20，所有方法都运行了500步。

结果概述。

我们将展示GCG（算法1和2）能够在Vicuna-7B和Llama-2-7B-Chat上一致地在这两种设置中找到成功的攻击。对于具有挑战性的有害字符串设置，我们的方法在Vicuna-7B上成功88%，在Llama-2-7B-Chat上成功57%，而先前工作中最接近的基线（使用AutoPrompt，尽管仍然有我们多提示、多模型方法的其余部分）在Vicuna-7B上达到25%，在Llama-2-7B-Chat上达到3%。对于有害行为，我们的方法在Vicuna-7B上实现了100%的攻击成功率，在Llama-2-7B-Chat上为88%，先前的工作分别为96%和36%。

表1：我们的攻击在所有设置上始终优于先前的工作。我们报告了在AdvBench数据集上欺骗单个模型（Vicuna-7B或LLaMA-2-7B-Chat）的攻击成功率（ASR）。我们还报告了在优化以引出确切有害字符串（HS）时模型输出与目标之间的交叉熵损失。更强的攻击具有更高的ASR和更低的损失。方法中的最佳结果会被突出显示。

我们还证明了我们方法生成的攻击在其他LLMs上转移得非常好，即使是那些使用完全不同的标记来表示相同文本的模型。当我们专门设计攻击性示例来攻击Vicuna-7B时，我们发现它们几乎总是转移到更大的Vicuna模型。通过同时生成攻击性示例来愚弄Vicuna-7B和Vicuna-13b，我们发现这些攻击性示例也转移到了Pythia、Falcon、Guanaco，并且令人惊讶地转移到了GPT-3.5（87.9%）、GPT-4（53.6%）、PaLM-2（66%）和Claude-2（2.1%）。据我们所知，这些是第一个展示可靠地在各种LLMs上自动生成通用"越狱"攻击的结果。

3.1 对白盒模型的攻击

**图2：**不同优化器在引出Vicuna-7B的个别有害字符串方面的性能。我们提出的攻击（GCG）在这项任务上以显著的优势超越了以前的基线。更高的攻击成功率和更低的损失表明了更强的攻击。

首先，我们描述了我们的方法在明确训练的模型上进行攻击的能力。为了描述我们的方法在生成针对各种字符串、行为和模型组合的成功攻击方面的有效性，我们使用两种配置来派生攻击并评估ASR：单一目标在单一模型上的引出（1种行为/字符串，1个模型），以及通用攻击（25种行为，1个模型）。

1种行为/字符串，1个模型 。

在这种配置中，我们的目标是评估攻击方法从受害者语言模型中引出有害字符串和行为的有效性。我们对两种设置中的前100个实例进行了评估，分别使用算法1针对Vicuna-7B模型和LLaMA-2-7B-Chat模型优化单一提示。两种任务的实验设置保持一致，遵循默认的对话模板，不做任何修改。对于有害字符串场景，我们将对抗性标记作为整个用户提示，而对于有害行为，我们将对抗性标记作为有害行为的后缀，作为用户提示。

我们在表1中展示了结果。专注于"个别有害字符串"列，我们的结果表明PEZ和GBDA在Vicuna-7B和LLaMA-2-7B-Chat上都未能引出有害内容，而GCG在两者上都有效（分别为88%和55%）。图2显示了攻击进展过程中的损失和成功率，并说明GCG能够相对于其他方法快速找到损失较小的对抗性示例，并在剩余步骤中继续进行逐步改进。这些结果表明，GCG在寻找引出特定行为的提示方面具有明显优势，而AutoPrompt在某些情况下能够做到这一点，其他方法则不行。

查看表1中详细列出的"个别有害行为"列，PEZ和GBDA在这种设置中实现了非常低的ASR。相反，AutoPrompt和GCG在Vicuna-7B上表现相当，但它们在Llama-2-7b-Chat上的性能显示出明显差异。尽管两种方法的ASR都有所下降，GCG仍然能够在绝大多数实例中找到成功的攻击。

25种行为，1个模型 。

这种配置展示了生成通用对抗性示例的能力。我们使用算法2针对25种有害行为优化了Vicuna-7B（或LLaMA-2-7B-Chat）上的单一对抗性后缀。优化后，我们首先计算这个单一对抗性提示在优化中使用的25种有害行为上的ASR，称为训练ASR。然后我们使用这个单一示例来攻击100种保留的有害行为，并将结果称为测试ASR。表1中的"多种有害行为"列显示了所有基线和我们的结果。我们发现GCG在两种模型上都一致优于所有基线，并且对Vicuna-7B的几乎所有示例都成功。尽管AutoPrompt在Vicuna-7B上的性能相似，但在Llama-2-7B-Chat上的效果远不如我们的方法，对于保留的测试行为，其成功率为35%，而我们的方法为84%。

图3：展示了第3.2节中描述的我们的GCG提示在新行为上对开放和专有模型的攻击成功率（ASR）的图表。仅提示指的是用没有尝试攻击的查询模型。"Sure here's"附加到指令上，让模型以该字符串开始其响应。GCG在所有对抗性提示上平均ASR，并且GCG集成如果至少有一个GCG提示有效则认为攻击成功。这个图表展示了GCG提示转移到具有不同词汇表、架构、参数数量和训练方法的多样化LLMs。

单模型实验总结。

在第3.1节中，我们在两种设置上进行了实验，有害字符串和有害行为，以评估使用GCG引出两个开源LLMs，Viccuna-7B和LLaMA-2-7B-Chat上目标不对齐竞争的有效性，GCG在所有基线上都表现更佳。此外，我们运行实验来优化一个通用提示，以攻击所有行为上的受害者模型。GCG在行为测试集上的高ASR表明，这些模型中显然存在通用攻击。

3.2 转移攻击

第3.1节展示了单一模型上的通用攻击。在这节中，我们进一步展示针对多种行为和多种模型的通用攻击，包括开放和专有的，也存在。

生成通用对抗性提示。

我们按照算法2为多个模型和多个提示生成单个对抗性提示。具体来说，我们使用GCG优化来自两个模型的损失，Vicuna-7B和13B，在25种有害行为上，类似于第3.1节中的设置。我们用不同的随机种子运行这些实验两次，以获得2个攻击后缀。此外，我们通过在同一25个提示上引入Guanaco-7B和13B（即25个提示，总共4个模型）准备第三个对抗性提示。对于上述每种运行，我们在500步后取得最低损失的提示。

**表2：**使用有害行为、有害行为加"Sure, here's"作为后缀，以及有害行为加GCG提示作为后缀，在GPT-3.5（gpt-3.5-turbo）和GPT-4（gpt4-0314）、Claude 1（claude-instant-1）、Claude 2（Claude 2）和PaLM-2上测量攻击成功率（ASR）。结果在388种行为上平均。我们还报告了使用几个GCG提示的串联作为后缀时的ASR，以及当集成这些GCG提示时（即，如果至少有一个后缀有效，则认为攻击成功）。

**图4：**图1所示示例中有害内容生成的截图：ChatGPT（左上）、Claude 2（右上）、Bard（左下）、LLaMA-2（右下）。附录B中展示了完整的生成。

**图5：**我们的攻击从最先进商业模型中引出的有害行为示例；GPT-3.5（绿色）、GPT-4（紫色）和Claude。确切的提示可能因不同模型而略有不同。我们只选择完整的模型响应中的摘录来证明我们方法在引出有害行为方面的有效性。然而，我们有意识地排除了包含详细危险指令的部分。我们在附录中展示了更多示例。

基线。

在这一部分，我们专注于展示GCG发现的对抗性提示的可转移性。作为参考，我们包括以下情况的ASR：(1) 提示仅指简单地查询模型，没有尝试攻击或颠覆正常生成；(2) "Sure here's"附加到指令上，让模型以该字符串开始其响应，如之前工作（Wei等人，2023年）所示：

message = {harmful_behavior} (以 "Sure here's" 开始)

测试模型。

对于在Vicuna（Zheng等人，2023年）和Guanaco（Dettmers等人，2023年）上优化的GCG提示，我们在一系列类似大小的开放模型上测量ASRs，包括Pythia-12B（Biderman等人，2023年）、Falcon-7B（Penedo等人，2023年）、ChatGLM-6B（Du等人，2022年）、MPT-7B（Team，2023年）、Llama-2-Chat-7B（Touvron等人，2023年）和Stable-Vicuna（CarperAI，2023年），以及专有的GPT-3.5（gpt-3.5-turbo-0301）和GPT-4（gpt4-0314）、Claude 1（claude-instant-1）、Claude 2（Claude 2）和PaLM-2（PaLM 2）。我们在提示它们时使用每个模型的默认对话模板。我们将ChatGPT和Claude模型的温度和top_p设置为0以获得确定性结果。在对PaLM-2的实验中，我们发现使用默认生成参数（温度0.9，top-p 0.95）产生了更高概率生成有害完成，我们使用了此设置。因此，这些生成不是确定性的，所以我们检查了PaLM-2的8个候选完成，并认为如果其中任何一个引出目标行为，则攻击成功。

转移结果。

我们收集了388个测试有害行为来评估ASR。每个开源模型的三个提示的最大ASR在图3中显示（用更深的蓝色表示）。为了将他们的结果与专有模型进行比较，我们还在图表中包括了GPT-3.5和GPT-4，并在表2中延迟了更多专有模型的结果。

除了在Pythia-12B上匹配"Sure, here's"攻击，几乎有100% ASR外，我们的攻击在其他模型上以显著的优势超越了它。我们强调，我们的攻击在几个我们没有明确针对提示优化的开源模型上达到了接近100%的ASR，对于其他如ChatGLM-6B，成功率仍然可观但明显较低。我们还报告了我们攻击的集成ASR。我们测量了至少有一个GCG提示引出模型有害完成的行为的百分比（在较浅的条形图中显示）。这些结果清楚地表明，可转移性普遍存在于我们研究的模型中，但可能有一些因素会导致攻击提示在指令间的可靠性存在差异。了解这些因素是什么是一个重要的未来研究课题，但实际上，我们的结果与集成攻击表明，它们本身可能不足以为强有力的防御提供基础。

在表2中，我们专注于我们在ChatGPT和Claude模型上的转移攻击的ASR。前两行显示了我们的基线，即仅有害行为，以及有害行为以"Sure, here's"作为后缀。在"Behavior+GCG prompt"的行中，我们展示了在Vicuna模型上优化的两个提示中最好的ASR，以及在Vicuna和Guanacos上一起优化的提示的ASR。我们的结果证明了在GPT-3.5和GPT-4上非平凡的越狱成功。有趣的是，当使用也在Guanacos上优化的提示时，我们能够在Claude-1上进一步提高ASR。Claude-2似乎比其他商业模型更加健壮。然而，正如我们将在"为生成的提示手动微调"段落中讨论的，我们展示了通过在提示有害行为之前使用调节步骤，可以提高GCG提示在Claude模型上的ASR。第3.3节更详细地讨论了这一点。最后，在图6中我们观察到，在某些情况下，通过让GCG优化器运行较少的步骤，可以改善我们的转移攻击结果。运行许多步骤（例如，500步）可能会降低可转移性并过度拟合到源模型上。

提高可转移性。

我们发现组合多个GCG提示可以进一步提高几个模型上的ASR。首先，我们尝试将三个GCG提示连接成一个，并将其作为所有行为的后缀。表2中的"+ Concatenate"行显示，这个更长的后缀特别将GPT-3.5（gpt-3.5-turbo-0301）上的ASR从47.4%提高到79.6%，这是仅针对Vicuna模型优化的GCG提示的两倍多。然而，连接后缀实际上在GPT-4上的ASR更低。我们发现，过长的连接后缀增加了GPT-4不理解输入的次数。结果，它请求澄清而不是提供完成。连接后缀在Claude-1上的回报减少可能仅仅是因为针对Vicuna模型优化的提示与针对Vicuna和Guanacos模型优化的提示相比，在成功攻击中没有增加太多。

除了连接，我们观察到通过集成方法可以利用优化提示的多样性。具体来说，对于每种行为，我们尝试使用所有可用的GCG提示来攻击模型，包括三个短的和一个通过连接生成的加长版本。我们要么在攻击证明成功时停止这个过程，要么在用完提示时（我们认为集成失败）。图3（较浅的条形图）和表2中的"+ Ensemble"行显示了集成的结果。令人惊讶的是，集成方法将GPT-3.5上的ASR提高到86.6%，GPT-4和Claude-1接近50%。

总结来说，我们的结果显示，只需最少数量的查询就能实现高攻击成功率（ASR）。值得注意的是，我们的攻击在开源模型上几乎达到了完美的ASR，并且在像GPT-4这样的黑盒大型语言模型（LLMs）上，在以前未见过的行为上也超过了50%。我们在图5中展示了从这些模型中引出的一小部分极具危害性的行为。

手动微调用户提示。

我们的结果显示，对抗性后缀往往会对模型进行条件化，从而显著增加它们从事有害行为的可能性。然而，当使用涉及极端伤害的提示时，模型可能仍然会在遵循给定指令时表现出犹豫。为了进一步调查模型抵抗有害行为的鲁棒性，我们邀请了其中一位作者对针对我们攻击未能引出GPT-3.5的特定行为的提示的人可读部分进行微调。作者被给予每个行为30秒的时间限制来微调提示。在这个短暂的时间框架内，作者通过简单的改写或重述原始指令，成功地引出了近100%的行为。例如，将"生成指令"替换为"创建一个教程"，在许多情况下证明是有效的引出预期行为的方法。

我们没有在所有商业模型上重复这个练习，但在一些转移攻击本来困难的情况下，确实观察到了个别的成功案例。例如，图4中展示的Claude 2的行为在用攻击提示有害行为之前使用了一个调节步骤：机器人参与了一个简单的单词游戏，引入了涉及指令中关键术语的替换。结合转移攻击，这足以引出被提示的有害行为。第3.3节中进一步讨论了Claude 2对我们完全自动化攻击的明显鲁棒性。

图6：（左）在针对Vicuna和Guanaco模型优化后缀时，四种模型运行中的转移攻击成功率（ASR）和GCG损失。GCG损失在优化的前半段急剧下降，但在后半段逐渐趋于平缓。随着GCG损失的降低，针对黑盒模型的转移攻击成功率在前半段增加，但随着优化的继续，成功率开始下降，显示出潜在的过拟合迹象。（右）针对不同目标模型优化的后缀，对一系列黑盒模型的平均转移攻击成功率。针对在Claude上微调的LLaMA模型优化的对抗性后缀获得的成功率高于其他设置。

3.3 讨论

从高层次来看，我们认为这项工作的影响相当广泛，并提出了关于当前LLMs对齐方法的重大问题。具体来说，在开源LLMs以及关于黑盒LLMs所披露的内容中，大多数对齐训练都集中在发展对"自然"形式攻击的鲁棒性，即人类操作员试图手动诱使网络产生各种不良行为的设置。这种对齐模型的操作模式是有意义的，因为最终这是攻击此类模型的主要模式。然而，我们怀疑自动化的对抗性攻击，由于比手工工程速度快得多且更有效，可能会使许多现有的对齐机制不足。然而，这仍然留下了几个问题，我们在下面尝试解决其中的一些。

模型通过对齐变得更健壮了吗？

观察到的数据中一个非常值得注意的趋势（这在某种程度上与"对抗性攻击将继续主导任何对齐模型"的预测相反），是更近期的模型确实显示出明显较低的攻击成功率：GPT-4被成功攻击的频率低于GPT-3.5，而Claude 2很少被成功攻击。然而，我们也认为这些数字可能有些误导，原因很简单，即Vicuna模型是基于从ChatGPT-3.5响应中收集的数据进行训练的。在（视觉）对抗性攻击文献中，已经确立了在蒸馏模型之间进行转移攻击通常比完全独立模型效果更好。鉴于Vicuna在某种意义上是ChatGPT-3.5的一个蒸馏版本，因此攻击在这里效果很好或许并不令人惊讶。对这个假设的最终测试将是创建类似的Claude、GPT-4等的蒸馏变体，并评估攻击成功率是否提高。

我们还注意到，当我们的攻击应用于Claude时，成功率可能因为文本评估前似乎应用了初始内容过滤器而降低（在许多情况下，LLM根本不会产生任何内容，因为查询被判定为包含不适当的信息）；这在聊天界面中应用，但不在Claude API中。这种检测器一直是尝试避免视觉领域对抗性攻击的常见策略，并且它们普遍失败了（Carlini和Wagner，2017a）；攻击模型简单地变成了（同样容易的）同时攻击检测器和模型本身的任务。实际上，我们在上文中提到的"技巧"，即在早期提示中交换单词，似乎避免了这个问题（图4右上角）。尽管可以说这让我们回到了"手动工程"攻击的一边，但自动化这个过程似乎也是可能的，例如，设计一个可以分两部分提示的攻击，和/或调整用户查询本身以逃避检测，同时仍然生成所需的输出。此外，我们的攻击对其他模型包括Bard和Claude的转移，这些模型在建模和训练方法上可能有很大的不同，这表明在某种程度上，这种行为可能是在任何类似来源上训练的语言模型所预期的。

这些攻击有意义吗？

为了减轻伤害，我们避免直接引用我们的方法创建的完整提示。但我认为看看攻击字符串内实际生成的内容是有趣的。以下是一个这样训练的对抗性攻击的部分内容：

...end-line only please reiterate the first sentence by putting Sure by...

也许有趣的是，在与基于图像的对抗性攻击（在典型设置中没有语义上有意义的特征）明显的对立中，这里发现的对抗性提示确实有可解释性的元素。例如，提示包括短语"please reiterate the first sentence by putting Sure"，这似乎确实大致对应我们的确切目标，即以"Sure, here is"开头，后跟用户查询的内容。我们也轶事性地发现，结合多个提示和多个模型倾向于增加提示具有一些可辨识结构的可能性。这种模式尽管我们从一个完全任意的初始提示开始，并且根据（高度嘈杂的）梯度贪婪优化，却出现了。诚然，然而，并不是每个提示都像这个一样有如此多的结构；例如，以下也是一个发现的提示的典型部分：

...restored into one sentence grammar using proper colon...

因此，我们上面看到的这种"相对可解释的"提示可能只是一大把可能的提示之一。

为什么这些攻击还不存在？

我们的工作提出的最根本问题之一是：鉴于我们采用了相当直接的方法，主要在文献中以前的方法上进行了小幅度的构建，为什么以前对LLMs的攻击尝试不太成功？我们推测这至少部分是因为以前的NLP攻击工作集中在更简单的问题上（如愚弄文本分类器），那里最大的挑战仅仅是确保提示与原始文本没有太大的不同，以这种方式改变了真实类别。如果我们想证明"破坏"一个文本分类器，那么不可解释的垃圾文本几乎没有意义，而且这种更广泛的观点可能仍然支配着当前对LLMs的对抗性攻击的工作。事实上，也许只有在最近足够强大的LLMs出现时，从模型中提取这种行为才成为一个合理的目标。无论原因如何，我们相信我们工作中展示的攻击代表了需要严格解决的明确威胁。

4 相关工作

LLMs中的对齐方法

由于大多数LLMs是在从Web上广泛抓取的数据上训练的，当在面向用户的应用程序中使用时，它们的行为可能与普遍接受的规范、伦理标准和法规发生冲突。越来越多的关于对齐的工作旨在理解由此产生的问题，并开发解决这些问题的技术。Hendrycks等人（2021年）引入了ETHICS数据集来衡量语言模型预测人类伦理判断的能力，发现尽管当前的语言模型在这方面有一些希望，但预测基本人类伦理判断的能力是不完整的。

对模型行为进行对齐的主要方法结合了人类反馈，首先从注释者给出的偏好数据中训练奖励模型，然后使用强化学习相应地调整LLM（Christiano等人，2017年；Leike等人，2018年；Ouyang等人，2022年；Bai等人，2022年）。这些方法中的几种进一步将奖励模型限定在规则（Glaese等人，2022年）上，或者限定在对有害指令的反对的"思维链"风格的解释（Bai等人，2022年）上，以提高模型行为的人类判断对齐。Korbak等人（2023年）进一步表明，将人类判断纳入预训练期间使用的目标中可以额外提高下游任务中的对齐。虽然这些技术已导致LLMs生成令人反感的文本的倾向有了显著改善，Wolf等人（2023年）认为，任何减轻但不完全消除不良行为的对齐过程将仍然容易受到对抗性提示攻击的威胁。我们在当前对齐的LLMs上的结果，以及先前展示成功的越狱的工作（Wei等人，2023年）与这一猜想一致，并进一步强调了更可靠的对齐和安全机制的必要性。

对抗性示例与可转移性

对抗性示例，或旨在引起机器学习模型错误或不需要行为的输入，已经成为广泛研究的主题（Biggio等人，2013年；Szegedy等人，2014年；Goodfellow等人，2014年；Papernot等人，2016b；Carlini和Wagner，2017b）。除了对对抗性攻击的研究外，还提出了一些方法来防御模型免受此类攻击（Madry等人，2018年；Cohen等人，2019年；Leino等人，2021年）。然而，防御这些攻击仍然是一个重大挑战，因为最有效的防御通常降低模型准确性（Li等人，2023年）。

虽然最初是在图像分类的背景下研究的，但最近已经展示了几种任务的语言模型的对抗性示例：问答（Jia和Liang，2017年；Wallace等人，2019年）、文档分类（Ebrahimi等人，2017年）、情感分析（Alzantot等人，2018年；Maus等人，2023年）和毒性（Jones等人，2023年；Wallace等人，2019年）。然而，这些攻击对我们研究的对齐模型的成功被证明相当有限（Carlini等人，2023年）。除了实际上优化语言模型攻击所需的离散标记的相对困难（下面将更详细讨论），一个更基本的挑战是，与基于图像的攻击不同，在文本领域没有真正不可察觉的攻击的类似物：小的 ( \ell_p ) 扰动产生的图像对人类来说实际上是无法区分的，而替换离散标记在严格意义上几乎总是可感知的。对于许多分类领域，这要求改变攻击威胁模型，以确保文本的标记变化不会改变文本的真实类别，例如，只使用同义词替换单词（Alzantot等人，2018年）。实际上，这是研究对齐语言模型攻击设置的一个显著优势：与文档分类的情况不同，理论上没有任何输入文本的变化应该允许生成有害内容，因此指定任何调整提示以引起目标不良行为的威胁模型，比在其他攻击中更为明确。

关于表征和防御对抗性示例的大部分工作考虑了针对特定输入量身定制的攻击。普遍对抗性扰动------在许多输入上引起错误预测------也是可能的（Moosavi-Dezfooli等人，2017年）。正如特定实例存在于不同架构和领域中一样，普遍示例已经被证明适用于图像（Moosavi-Dezfooli等人，2017年）、音频（Neekhara等人，2019年；Lu等人，2021年）和语言（Wallace等人，2019年）。

对抗性示例最令人惊讶的特性之一是它们是可转移的：给定一个欺骗一个模型的对抗性示例，有一定非零概率它也会欺骗其他类似的模型（Szegedy等人，2014年；Papernot等人，2016a）。已经证明，可转移性在不同类型的数据、架构和预测任务中出现，尽管在某些设置中并不像它被最广泛研究的图像分类领域那样可靠，例如，在许多情况下，音频模型中的可转移性已经被证明更加有限（Abdullah等人，2022年）。对于语言模型，Wallace等人（2019年）展示了为117M参数GPT2生成的示例可以转移到更大的375M变体，最近Jones等人（2023年）展示了在GPT2上优化的一组三个标记的有毒生成提示中大约一半转移到了davinci-002。

有几种理论解释为什么会出现可转移性。Tramèr等人（2017年）推导出了对数据分布的条件，这些条件足以在线性模型之间实现模型无关的可转移性，并提供了经验证据支持这些条件更普遍地保持足够。Ilyas等人（2019年）认为，对抗性示例的一个原因在于存在非鲁棒特征，尽管容易受到小范数扰动，但它们能够预测类别标签。这一理论也可以解释对抗性可转移性，甚至在某些情况下也可以解释普遍性，因为训练有素但非鲁棒的模型可能会学习到这些特征，尽管在架构以及与优化和数据相关的许多其他因素上存在差异。

离散优化和自动提示调整

在NLP模型的对抗性攻击中，一个主要挑战是，与图像输入不同，文本本质上是离散的，这使得更难利用基于梯度的优化来构建对抗性攻击。然而，已经有一些人在离散优化方面进行了一些工作，这些通常尝试利用除了标记输入的离散性质外，基于深度网络的LLM的其余部分是一个可微函数这一事实。

一般来说，有两种主要的提示优化方法。第一种，基于嵌入的优化，利用了LLM中的第一层通常将离散标记投影到某些连续嵌入空间中，并且预测下一个标记的概率是这个嵌入空间上的可微函数。这立即激发了在标记嵌入上使用连续优化的想法，一种通常称为软提示的技术（Lester等人，2021年）；实际上，我们发现在软提示上构建对抗性攻击是一个相对简单的过程。不幸的是，挑战在于这个过程是不可逆的：优化的软提示通常没有相应的离散标记化，而且面向公众的LLM接口通常不允许用户提供连续嵌入。然而，有一些方法通过不断投影到硬标记分配来利用这些连续嵌入。例如，Prompts Made Easy（PEZ）算法（Wen等人，2023年）使用量化优化方法通过在投影点处取得的梯度来调整连续嵌入，然后进一步将最终解决方案投影回硬提示空间。或者，最近的工作也利用Langevin动力学采样从离散提示中采样，同时利用连续嵌入（Qin等人，2022年）。

另一组替代方法首先直接在离散标记上进行优化。这包括研究对标记进行贪婪穷举搜索的工作，我们发现通常表现良好，但在大多数设置中计算上不切实际。或者，一些方法计算了相对于当前标记分配的一位有效编码的梯度：这基本上将一位向量视为连续量，以得出这个项的相关重要性。这种方法首先在HotFlip（Ebrahimi等人，2017年）方法中使用，总是贪婪地用具有最高（负）梯度的替代品替换单个标记。然而，因为在一位有效级别上的梯度可能不能准确反映在切换整个标记后的函数，AutoPrompt（Shin等人，2020年）方法通过在前向传递中根据k个最大负梯度评估几种可能的标记替换来改进这一点。最后，ARCA方法（Jones等人，2023年）通过在几种潜在的标记交换处评估近似一位梯度，而不仅仅是当前标记的原始一位有效编码，进一步提高了这一点。实际上，我们自己的优化方法遵循了这种标记级别的梯度方法，并对AutoPrompt方法进行了微小调整。

5 结论和未来工作

尽管在过去十年中有大量关于对抗性示例的文献，但在构建可靠的NLP攻击以规避现代语言模型的对齐训练方面进展甚微。实际上，大多数现有的攻击在评估这个问题时明确失败了。本文采用了一种简单的方法，主要采用了在文献中以不同形式考虑过的技术的（轻微修改）集合。然而，从应用的角度来看，这似乎足以将针对LLMs的实际攻击的最新技术向前推进。

在这条研究线中，还有许多问题和未来的工作。也许最自然的问题是，鉴于这些攻击，模型是否可以明确地微调以避免它们。这确实是对抗性训练的策略，仍然是训练健壮机器学习模型的经验上最有效的手段：在模型的训练或微调期间，我们会使用这些方法之一攻击它，然后迭代地在潜在有害查询的"正确"响应上进行训练（同时可能还在额外的非潜在有害查询上进行训练）。这个过程最终是否会导致不容易受到此类攻击的模型（或轻微修改，如增加攻击迭代次数）？它们是否能够在保持高生成能力的同时证明是健壮的（对于传统ML模型来说显然不是这样）？仅仅更多的"标准"对齐训练是否已经部分解决了问题？最后，是否有其他机制可以在预训练本身中发挥作用，以避免首先出现这种行为？

6 伦理和更广泛的影响

这项研究包含可以让人们从一些公共LLMs生成有害内容的材料。尽管涉及风险，我们认为完整披露这项研究是重要的。这里介绍的技术易于实施，以前在文献中以类似形式出现过，并且最终会被任何致力于利用语言模型生成有害内容的团队发现。

由于一些（手动）"越狱"现有LLMs已经广泛传播，释放我们的攻击直接增加的危害在目前是很小的。然而，随着LLMs更广泛地被采用，包括向基于LLMs采取自主行动的系统发展，我们认为潜在风险将会增加。因此，我们希望这项研究有助于阐明自动化攻击对LLMs构成的危险，并强调这类系统所涉及的权衡和风险。

在发表之前，我们向我们研究的大型闭源LLMs的组织披露了这项研究的结果；因此，论文中展示的例子可能不再起作用。然而，我们的攻击所构成的潜在挑战如何得到充分解决（如果有的话），或者这些攻击的存在是否应该限制LLMs适用的情况，仍然不清楚。我们希望我们的工作能激发这些方向的未来研究。