零、前言

📌本文为稀土掘金技术社区首发签约文章，30天内禁止转载，30天后未获授权禁止转载，侵权必究！

📕欢迎访问：

个人博客：conqueror712.github.io/

知乎：www.zhihu.com/people/soeu...

Bilibili：space.bilibili.com/57089326

掘金：juejin.cn/user/129787...

注意，本文不涉及太多复杂的公式与数学推导，初学者或者像笔者一样数学不好的读者可以放心阅读！

论文链接：arxiv.org/abs/2309.00...

一、开门见山，先说结论

本篇论文的研究提出了一种新的，基于几何的视角，解释了LLM上的通用对抗攻击（等一下会解释）。并通过实验，即攻击GPT-2模型找到了支持这一假设的证据。

研究人员认为，这种几何视角可以帮助我们更好地理解语言模型的内部工作方式和故障模式，并基于此采取相应的缓解和避免模型乱说话的措施。

二、什么是通用对抗攻击？

通用对抗攻击（Universal Adversarial Attack）是一种针对机器学习模型的攻击方法，旨在在输入数据中添加微小的扰动，以使机器学习模型产生错误的输出或误判。另外，通用对抗攻击是对抗攻击的一种，后者的范围更大，定义更广。

回到这篇论文，对于LLM而言，通用对抗攻击是指通过对输入文本进行微小修改，使得语言模型产生错误的结果或误导性的输出。

更进一步地说，通用对抗攻击是基于梯度 的攻击方法，利用模型的梯度信息来优化生成对抗性样本，这些样本在视觉或语义上与原始样本相似，但实际上能够欺骗模型（模型：我谢谢你嗷）。

通用对抗攻击的危险性在于其对输入数据的不敏感性。说人话就是，攻击者可以通过对原始输入进行微小的修改，生成的对抗样本可以欺骗模型，导致模型生成误导性的文本生成、Fake News等，虽然说目前来看，模型本身就有可能胡编乱造，但是如果进行对抗攻击的话，情况会更甚。

在本文的研究中，作者通过攻击一个具有117M参数的GPT-2模型，揭示了通用对抗攻击的一种新颖几何视角。他们提出了通用对抗触发器（等一下会解释）可以是Embedding向量，这些向量仅近似于对抗训练数据中的语义信息。然后，通过分析模型的白盒特性，包括降维和隐藏表示的相似度测量，作者试图深入理解驱动通用攻击的基本机制，以便更好地理解和缓解大型语言模型中的对抗攻击现象。

基于此，我们可以把刚才得到的结论扩充一下：

文章提出了一种新颖的几何视角，作为解释LLM上通用对抗攻击的潜在解释。
文章通过降维和隐藏表示的相似度测量提供了初步的实验证据来支持这一发现。
文章利用这个新的视角为文献中观察到的通用对抗触发器的行为开启了额外的潜在解释可能性。

通过对这类攻击进行逆向工程，作者希望揭示大型语言模型的内部运作方式、它们的故障模式以及减轻不良后果的潜在策略。

三、老鼠屎------LLM上的通用对抗触发器

通用对抗触发器（Universal Adversarial Trigger）是一种用于对抗攻击的技术，它指的是在输入数据中插入特定的触发器或标记，以引发目标模型的误判或产生特定的行为。通用对抗触发器可以是图像中的一小块特定像素，也可以是文本中的特定词语或短语。

在LLM中，我们将触发器一词替换成触发词即可。它们是通过基于梯度的优化搜索得到的一系列token序列。当将这些触发词附加到输入中时，会导致模型在多个语言任务上表现不佳。

值得一提的是，触发词是与输入无关的，也就是说，对于给定模型，相同的触发词可以用于任何输入，从而增加了其对抗性威胁程度，打个比方就是"老鼠屎"无论加到什么粥里都会坏了这一锅粥。

那么"老鼠屎"是由什么组成的呢？其实通常就是由大多数无意义的token组成。作者在DistilBERT和OPT-350M模型上进行了实验验证，并发现触发词的长度较长时更有效（那当然，"老鼠屎"加的越多越...再说下去就要把早餐吐出来了，我们还是用UAT来代替吧）。

此外，作者还通过将UAT应用于文本生成任务，证明了UAT在不同模型之间的可迁移性。文章限定了分析范围为文本生成，情感分析留待以后的研究。

四、UAT的token分三六九等吗？

由于Self-Attention是Transformer模型与其他模型的区别所在，所以作者首先研究了UAT对Self-Attention权重的影响。结果发现UAT对Self-Attention权重的影响不明显，但最后一个有意义的token往往会受到高度关注，它是高等token。

这是什么意思呢？事实上，在生成文本的过程中，模型通常更加关注最后一个有意义的词语或符号，这是上下文依赖性、注意力权重和UAT设计等因素的相互作用的结果。

举个例子吧，假设我们使用UAT来生成关于动物的句子："The brown fox jumps over the lazy dog"（一只棕色狐狸跳过了我）。UAT中的最后一个有意义的token是"dog"。在生成过程中，模型会根据上下文信息逐步生成文本。当模型生成到UAT中的最后一个token"dog"时，会将它视为一个重要的标记，并给予它更高的关注度。

此外，UAT中不同的token对模型输出的影响程度可能不同。通过删除或更改UAT中的token，可以观察到对生成内容的影响，这被称为"扰动"，原文用的是一个关于种族主义的例子，为了过审我这里就不展开具体细节了，不过后面还会简单提到。

五、几何在哪里？

说了这么多，也没看到几何体现在哪了，事实上，我们看一张图就能略知一二，如下图所示：

图1：UAT（红色）可能表现得像一个Embedding向量，经过优化后进入一个种族主义的语义区域（黄色）。这个大的Embedding Space还存在其他语义区域，如随机的英语句子（蓝色）和气候变化（绿色），与种族主义区域相分离。

鉴于在Self-Attention探测和UAT扰动中观察到UAT的语义意义对其有效性起作用，作者提出了一种可能解释通用对抗性UAT的几何视角。具体而言，作者考虑了词嵌入的几何解释，并推测触发序列可能表现得像Embedding向量，位于与其训练生成对抗性文本所对应的Embedding Space的一部分。

为了支持这一假设，作者利用降维和白盒模型分析。随后问题可以简化为展示UAT与对抗性文本之间的可测相似性，同时UAT与无害文本之间的可测差异性。

六、实验与结论

作为结论的依据，肯定是要进行实验的。作者借用了Wallace等人的基准实验设置，并使用GPT-trigger攻击了117M参数的GPT-2模型。为了找到支持几何视角的证据，作者尝试展示UAT和针对种族主义的对抗性文本之间的相似性，同时展示UAT与其他语义类别的文本之间的差异性。

然而，正如机器学习中的大多数问题一样，他们遇到了贝尔曼提出的维数灾难。即如果不进行某种形式的降维处理，比较通过GPT-2的768维词向量表示的句子是非常困难的。所以作者尝试了三种常见的降维技术：主成分分析PCA、tSNE和UMAP，并发现UMAP提供了最有用的见解。

我们先简单介绍一下UMAP，UMAP（Uniform Manifold Approximation and Projection）是一种非线性降维算法，用于将高维数据映射到低维空间。它是一种基于流形学习的方法，旨在保持数据的局部结构和全局结构。核心思想是通过构建数据点之间的邻近关系来捕捉数据的局部结构，并将这些关系映射到低维空间中。它基于两个关键步骤：局部邻近关系建模和优化嵌入。

UMAP具有几个重要的特点，可能是它效果好的原因：

它能够在保持数据的局部结构的同时，有效地捕捉全局结构，从而在降维过程中提供更好的可视化效果。
UMAP对于大规模数据集也具有较好的可扩展性，可以处理包含数十万甚至数百万个数据点的数据。
UMAP还可应用于各种类型的数据，包括数值型数据、类别型数据和文本数据等。

基于此，作者首先创建了10个句子组，每个组属于特定的语义类别。第一组句子由GPT-trigger的四个变体组成，其中三个变体将最后一个标记与其他种族群体进行交换。第二组句子由GPT-trigger最初训练的对抗性目标文本组成。第三组句子由GPT-trigger之前未见过或未经训练的任意种族主义文本组成。其余的句子组由ChatGPT生成的句子组成，包括随机的英语句子、关于黑人、白人、亚洲人、穆斯林的通用正面句子、关于气候变化的句子以及关于MAGA的特朗普的句子。

作者从GPT-2的最后一层收集每个句子的Word Embedding矩阵，并通过对标记进行逐维平均来将单个Word Embedding汇集成一个Sentence Embedding。然后对这些768维平均Sentence Embedding进行UMAP降维，并将它们投影到较低维度空间中，以观察句子组之间的相似性。在三维投影空间中，UMAP似乎强烈暗示UAT、对抗性目标文本和任意种族主义文本紧密聚集在一起，并与其他句子组有明显的分离，如下图所示：

图2：样本UMAP降维（neighbors = 15, minimum distance = 0.2）在句子组上进行。UAT（红色），对抗性训练文本（橙色）和任意未见的种族主义句子（棕色）聚集在一起，表明它们在语义上是相邻的。在语义上相似的句子组（黑人、白人、亚洲人和穆斯林）也会聚集在一起。

然后，作者通过改变UMAP的超参数并观察不同数值范围下的聚类行为来检查这种可能的孤立现象的稳健性。方法包括但不限于改变最近邻居的数量和最小距离。实验证据似乎强烈支持对通用对抗性UAT的几何解释的有效性。

简单来叔，实验展示了在一系列降维的UMAP维度、不同距离度量和合理的超参数值下，通用对抗性UAT与其训练的对抗性目标文本以及与目标文本在语义上相似的任意文本之间的距离最近。这种行为在不同UAT主题之间也得到了复制。换句话说，UAT可能确实像一个嵌入了它所训练的对抗性目标文本的向量一样行事，而在GPT-trigger的情况下，这个目标文本恰好是种族主义和冒犯性的，这就达到了它的目的。

最后的最后，再总结一下：本文提出了一种新颖的几何视角，可能解释了基于梯度的LLM上的通用对抗攻击。本文发现初步的实验证据表明，这些UAT可能像Embedding向量一样的行为，近似于其对抗训练区域中的语义信息。作者进一步利用这个视角，为文献中观察到的这些UAT的行为提供了潜在的解释。通过这种新颖的几何视角，作者希望揭示驱动通用攻击的潜在机制。这将进一步使我们能够理解LLM的故障模式，并且更重要的是，使其得以缓解。

FIN

解决LLM在对抗攻击中乱说话的方法——UAT几何化丨论文解读