论文翻译 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust

摘要

近年来，NLP从业者集中于以下实践:(i)导入现成的预训练(掩码)语言模型;(ii)在CLS令牌的隐藏表示(随机初始化权重)上附加多层感知器;(iii)在下游任务(MLP-FT)上微调整个模型。这一过程在标准的NLP基准上产生了巨大的收益，但这些模型仍然很脆弱，即使是轻微的对抗性扰动。在这项工作中，我们展示了通过提示进行模型调优(MVP)在对抗鲁棒性方面的惊人收获，这是一种适应下游任务的替代方法。MVP不是附加一个MLP头来进行输出预测，而是在输入中附加一个提示模板，并通过文本填充/完成进行预测。在5个NLP数据集、4个对抗性攻击和3个不同的模型中，MVP对对抗性替换的性能比标准方法平均提高了8%，甚至比基于对抗性训练的最先进防御高出3.5%。通过将MVP与对抗性训练相结合，我们进一步提高了对抗性鲁棒性，同时保持了在未扰动示例上的性能。最后，我们进行消融来研究这些增益背后的机制。值得注意的是，我们发现MLP-FT漏洞的主要原因可归因于预训练和微调任务之间的不一致，以及随机初始化的MLP参数。

1 引言

预训练的NLP模型（Devlin等人，2019年；Liu等人，2019年）通常通过以下方式适应下游任务：（i）在其最高表示层附加一个随机初始化的多层感知器；然后（ii）在下游数据上微调得到的模型（MLP-FT）。近期关于大型语言模型的工作表明，无需微调，只需通过一个前缀提示模型，其中包含几个输入及其对应目标值的示例，就可以达到相当的性能（Brown等人，2020年）。更广泛地说，提示方法通过将感兴趣的示例嵌入到提示模板中，将分类问题重新构建为序列补全（或遮罩填充）任务。然后，将模型的输出映射到一组候选答案，以做出最终预测。提示已经成为大型语言模型的有效策略（Lester等人，2021年），其效用也已在遮罩语言模型上得到证明（Gao等人，2021年）。

尽管微调模型在分布内数据上表现良好，但越来越多的研究表明，它们对对抗性干扰仍然很脆弱（Jin等人，2020年；Li等人，2020年；Morris等人，2020年a）。输入文本的微小变化，例如用同义词替换（Ebrahimi等人，2018年b）和对抗性拼写错误（Ebrahimi等人，2018年a；Pruthi等人，2019年），都会大大降低文本分类模型的准确性。尽管提示已经成为将预训练模型适应下游数据的一种流行方法，但很少有工作考虑适应策略与对抗性鲁棒性之间的相互作用。

在这项工作中，首先，我们展示了通过提示进行模型调整（MVP）在对抗性替换的鲁棒性方面相对于标准的带有MLP头的模型微调（MLP-FT）方法的惊人优势。值得注意的是，MVP在没有使用任何形式的对抗性训练或提示优化/工程的情况下，已经比使用对抗性训练的最先进方法在五个数据集（分类、布尔型问答和释义检测）、三种模型（BERT、RoBERTa和GPT-2）和四种攻击（单词和字符级替换）上的平均对抗性鲁棒性高出3.5%（第5节）。此外，我们发现将MVP与单步对抗性训练相结合可以进一步提高对抗性鲁棒性，使得相较于基线方法的综合鲁棒性提升超过10%。这并未在未受干扰的输入上造成任何准确性损失，表明对抗性训练的目标与MVP结合得很好。

迄今为止，先前的工作尚未探索过通过提示调整模型所有参数的想法（我们将这种设置称为全模型全数据微调）。我们仅看到以下情况：（i）在少量镜头设置中通过提示调整整个模型（Gao等人，2021年），或（ii）在冻结模型之上使用提示调整其他可调参数，并利用完整的训练集（Li和Liang，2021年）。我们相信，到目前为止，还没有使用全模型全数据微调的原因是，MVP相对于MLP-FT在干净准确性上的改进微不足道，而且MVP在鲁棒性上的优势之前尚未被发现。

其次，我们展示了MVP作为一种分类方法比MLP-FT（第5.1节）更（i）样本高效，并且（ii）具有更高的有效鲁棒性。即，MVP需要更少的训练样本来达到相同的干净准确性；对于任何给定的干净准确性，MVP的鲁棒准确性都高于MLP-FT。通过消融研究（第5.3节），我们发现（i）添加多个提示模板使得欺骗模型变得更加困难；且（ii）拥有多个候选答案对鲁棒性有微小但积极的影响。

第三，为了解释我们的观察结果，我们测试了一系列假设（第6节），包括（i）随机参数脆弱性------为MLP-FT添加一个随机初始化的线性头是否是其对抗性脆弱性的源头？；（ii）预训练任务对齐------鲁棒性的提高是否可以归因于MVP中微调任务与预训练任务之间的对齐？；以及（iii）语义上相似的候选答案------MVP的预测是否因为候选答案在语义上与类标签相似而更具鲁棒性？通过设计实验来测试这些假设，我们发现（i）在没有预训练的情况下，MVP和MLP-FT具有相似的鲁棒性表现，支持预训练任务对齐的假设；（ii）向MVP添加额外的未初始化参数会导致鲁棒性急剧下降，而从MLP-FT中移除密集（768,768）随机初始化的权重矩阵会显著提高模型的鲁棒性；

（iii）即使像'jack'和'jill'这样的随机候选答案也会产生类似的鲁棒性提升，这表明当通过提示进行微调时，候选答案的选择是无关紧要的（与此相反，对于少样本分类来说，这个选择是已知的至关重要）。

2 相关工作

对抗性攻击与防御 受到视觉模型对对抗性示例的脆弱性启发（Szegedy等人，2013年；Goodfellow等人，2014年），研究人员发现语言模型也存在类似的漏洞（Alzantot等人，2018年；Belinkov和Bisk，2018年）。与视觉不同，NLP的目标是开发（i）语义上可行的替换或删除（Ebrahimi等人，2018年b）；（ii）字符级别的拼写错误（Zhang等人，2015年b；Ebrahimi等人，2018年a；Pruthi等人，2019年）；或（iii）难以察觉的形似字符（Boucher等人，2022年）。

这种对抗性示例的发现涵盖了多个任务，如分类（Zhang等人，2015年b；Alzantot等人，2018年）、神经机器翻译（NMT）（Belinkov和Bisk，2018年）和问答（Jia和Liang，2017年），但它们仅限于小模型，如LSTMs和RNNs。其中，Jin等人（2020年）；Li等人（2020年）表明，尽管在标准NLP基准测试上取得了巨大收益，但BERT风格的预训练模型在下游任务上微调后仍然容易受到对抗性攻击。随后，多项工作试图为遮罩语言模型开发快速且语义上有意义的攻击（Li等人，2018年）和可扩展的防御（Wang和Bansal，2018年；Jia等人，2019年；Wang等人，2021年b；Si等人，2021年b；Zhu等人，2020年）。Yang等人（2022年）利用提示生成对抗性示例，并用MLP-FT对他们的模型进行训练。尽管付出了这些努力，与同一任务上的干净准确性相比，NLP模型在鲁棒准确性上仍有显著下降。

提示NLP模型 提示方法因GPT-3（Brown等人，2020年）而受到关注，在那里它主要在零样本和少量样本设置中使用，并需要手动尝试以提高性能。

在零样本设置中，不向模型提供标记示例，语言模型保持冻结状态。模型需要使用提供的提示来输出其预测。而在少量样本设置中，除了提示（也称为上下文学习）（Rubin等人，2022年；Levine等人，2022年）之外，还为冻结模型提供了几个特定于任务的标记示例。大量的工作投入到改进零样本和少量样本设置中使用的提示，包括基于挖掘的方法来自动增强提示（Jiang等人，2020年）、基于梯度的搜索（Shin等人，2020年）、使用生成性语言模型（Gao等人，2021年）和其他方法（Hu等人，2022年；Schick和Schütze，2021年b,a）。在完整数据设置中，先前的工作探索了通过提示调整（Liu等人，2022年；Li和Liang，2021年；Qin和Eisner，2021年；Lester等人，2021年）来注入模型额外的可调参数。这些工作都没有讨论提示相对于标准微调方法的鲁棒性优势（特别是在对抗性环境中）。

鲁棒微调与适应 在视觉文献中，先前的工作也试图在零样本和少量样本设置中使用提示来提高分布外（OOD）鲁棒性（Zhou等人，2022年a,b）。Kumar等人（2022年）观察到，由于在CLIP模型之上随机初始化的头部引入的偏差，微调会降低模型的分布外（OOD）性能，并建议一种先拟合线性头部然后微调模型的过程（LPFT）。

后来的工作表明，这种ID/OOD性能权衡可以通过在原始零样本和微调模型之间平均模型权重（Wortsman等人，2022年）和/或使用与预训练相似的目标进行微调（Goyal等人，2022年）来缓解。然而，这项工作仅应用于视觉-语言模型，其次，它只处理我们这里考虑的对抗性操作之外的"自然"鲁棒性评估。

3 方法

我们考虑的任务是监督式文本分类，我们有一个数据集，其中且对于一个 k 类分类问题。我们训练一个分类器 f 来基于输入 x 预测 y。我们遵循 Schick 和 Schütze (2021a) 的术语。输入 (x) 可以分解为单词序列，输出 (y) 是一个正整数，每个值对应一个特定的类。提示模板 (t) 是我们在输入开始或结束时附加的输入字符串。例如，我们可以在电影评论的末尾附加以下模板------"这部电影是 clearTimeout"。候选答案 (A) 是对应每个类的单词集。例如，正面情感类可以有以下候选答案------{great, good, amazing}。

对抗性攻击 我们关注的是对输入 x 的扰动，这些扰动会改变模型的预测。在限于同义词替换的对抗性攻击情况下，我们将模型限制为搜索输入中每个单词的同义词集合中的。而在字符级替换的情况下，我们考虑替换构成输入中每个的字符。

3.1 通过提示进行模型调优(MVP)

我们在图1(b)中展示了MVP的整体管道，并在下面描述了各个组件。

输入修改 考虑一个提示模板。对于任何输入x，可以通过在输入的开头或结尾附加模板来构造提示输入。最终输出基于语言模型给出的对[MASK]令牌最可能的替换。通常，我们使用一组用T表示的提示模板。

推理对于每个类标签，我们都有一组与之相关的候选答案。在推理过程中，我们做了以下工作:(i)对于每个类标签，在其候选集中选择logit值最大的候选;(ii)取所有模板中与选定候选类别对应的logit的平均值，以计算给定类别标签的最终logit;(iii)预测最终logit最高的班级。

3.2 MVP + Single-step Adv

基于Goodfellow等人(2014)的快速梯度符号方法(FGSM)，我们执行单步对抗训练。请注意，输入令牌是离散向量，因此不可能直接扰动输入。相反，我们通过模型的嵌入层传递输入，然后在嵌入空间中执行对抗性扰动。我们不干扰与提示符号相对应的嵌入。我们发现在约束条件下进行单步扰动比在约束条件下进行训练更稳定，并且在我们所有的实验中都使用相同的方法。文献中也研究了类似(但不等同)的方法(Si et al, 2021a)。

4 实验设置

我们在五个不同的数据集上进行了实验------ag News (Zhang等人，2015b)(4类主题分类)、SST2 (Socher等人，2013)(二元情感分类)、BoolQ (Clark等人，2019)(布尔问答)、DBPedia14 (Zhang等人，2015a)(14类主题分类)和MRPC (Dolan和Brockett, 2005)(转述检测)。DBPedia14和MRPC的结果见附录C.1。所有模型都使用RoBERTa-Base (Zhuang et al .， 2021)主干进行训练。

GPT-2和BERT-Base实验(Devlin et al .， 2019)见附录c。关于训练和攻击超参数的详细信息见附录E。

攻击策略 我们使用TextAttack库干扰输入(Morris等人，2020b)。特别地，我们使用1个字符级攻击和3个单词级攻击。单词级攻击包括TextFooler (Jin等人，2020)，TextBugger (Li等人，2018)，它基于反拟合的GloVe嵌入将单词替换为相邻单词，以及BertAttack (Li等人，2020)，它使用BERT将关键词替换为同义词对于字符级攻击，我们使用对抗性拼写错误(Pruthi等人，2019)。详情见附录B.2。
基线方法我们现在描述用于表示与各种微调策略相对应的训练方案的术语。MLP-FT是通过标准非对抗性训练进行分类的"基础"模型，所有基线都使用该模型。给定一个预训练模型，我们通过向对应于[CLS]令牌的输出中添加MLP层来执行下游微调，如图1(a)所示。这个隐藏的表示的大小为768×1。在BERT模型的情况下，有一个维度为768 × 2的致密层，而在RoBERTa模型的情况下，我们有一个用于进行最终预测的两层MLP。MLP-FT + Adv与第3.2节中用于对抗性训练的方法相同，其中我们在MLP-FT模型的嵌入空间中执行对抗性扰动，而不是MVP。为了与最先进的基于对抗性训练的防御进行比较，我们考虑了freel++ (Li等人，2021)(使用投影梯度下降的免费大批量对抗性训练)、InfoBERT (Wang等人，2021a)(信息瓶颈正则化器，用于抑制噪声信息)和AMDA (Si等人，2021b)(通过插值创建新训练示例的对抗性和混合数据增强)。我们在附录B.1中提供了有关每种基准方法的完整细节。

5 结果

我们首先评估了使用MVP对NLP模型的对抗鲁棒性的影响。对于布尔问题回答(BoolQ)任务，我们发现使用MLP头部(MLP- FT)微调RoBERTa模型在通过TextFooler攻击策略获得的对抗示例上达到28.2%的准确率(表1)。而通过提示(MVP)调整模型的相应准确率为42.9%，这比MLP- FT有了相当大的提高。此外，与MLP-FT + Adv和InfoBERT等对抗性训练基线相比，MVP模型更加稳健，后者的准确率分别为39.0%和38.1%。此外，MVP可以与对抗训练(MVP + adv)相结合，这样做会导致52.2%的准确率，比MVP提高了10%，而不会损失任何干净的性能。

表1:Adversarial鲁棒性:RoBERTa-base模型在3个不同数据集上的性能，在一个固定的规模为1000的测试集上，在3个不同的种子上平均。准确度最高的标上，次优的标上下划线。我们观察到，通过提示(MVP)调整的模型是最鲁棒的，同时保持(或提高)干净的准确性。

与布尔问题回答类似，MVP的鲁棒性优势适用于我们研究的三个任务。表1详细列出了各个性能统计数据。总体而言，在四种攻击策略和三个数据集中，我们报告MVP比MLP-FT提高了8%。值得注意的是，即使在没有任何对抗性训练的情况下，MVP也实现了最先进的对抗性性能，将基线对抗性训练方法提高了3.5%。此外，它可以与单步对抗训练相结合，从而比最先进的方法提高7%。

最后，鲁棒性优势只需要标准训练的2倍计算成本，而不是过去的工作，由于额外的对抗性训练，需要5 - 10倍的标准训练计算成本。BERT-Base的结果见表7。

5.1 样本效率和有效稳健性

我们通过在 BoolQ 和 AG-News 数据集上使用 RoBERTa 基础模型进行的实验，研究了 MVP 的样本效率和有效鲁棒性。我们在数据集的随机抽样部分上训练模型，范围从 5·10^-4 到 0.1。

图2:(a)样本效率:使用AG News数据集的不同数据大小训练RoBERTa-base模型时的干净和稳健的准确性。(b)有效的鲁棒性:RoBERTabase模型在BoolQ数据集上的鲁棒性与干净精度。我们发现(a)与MLP-FT相比，MVP的样本效率更高，(b)对于相同的干净精度，MVP比MLP-FT产生更强的鲁棒性(详见§5.1)。

样本效率 我们比较了 MVP 和 MLP-FT 在低数据环境下的性能。我们发现，与通过 MLP-FT 在低数据设置中训练的模型相比，MVP 得到的模型一致性更加鲁棒（见图 2a）。实际上，我们观察到在极低资源情况下（只有 60 个示例），使用 MLP-FT 学习是非常困难的，但通过 MVP 训练的模型表现异常出色。我们注意到，MVP 相对于 MLP-FT 的相对优势在大约 5--10% 的数据量时达到峰值。有趣的是，通过 MVP 训练的模型只需要 5% 的样本量就能达到与在完整数据集上使用 MLP-FT 训练的模型相似的鲁棒性水平。除了鲁棒性优势外，我们还发现 MVP 在低数据环境下（即少于 200 个示例）实现了明显更高的干净准确率。关于 BoolQ 的结果见 C.3。

有效鲁棒性 有效鲁棒性（Taori 等人，2021年）衡量的是具有相同干净准确率的模型的鲁棒准确率。这有助于确定在规模扩大时哪些训练时间的设计决策将是有价值的。我们通过在不同数据量上训练 MVP 和 MLP-FT 模型来衡量它们的有效鲁棒性。我们发现即使 MLP-FT 和 MVP 达到相同的干净准确率，通过 MVP 训练的模型也更加鲁棒（见图 2b）。AG News 的结果在 C.3 中呈现。

5.2 分布外鲁棒性

在对抗鲁棒性之外，我们现在进行实验来评估MVP、MLP-FT和LPFT的分布外鲁棒性。我们使用了5个情感分类数据集，即SST2、Amazon Polarity (Zhang et al .， 2016)、IMDb (Maas et al .， 2011)、Movie Rationales (Zaidan et al .， 2008)和烂番茄(Pang and Lee, 2005)。我们对每个数据集的1000个示例微调Roberta模型，并评估所有数据集。

由于所有这些数据集都是二元情感分析数据集，我们在所有模型中使用相同的模板和候选词(用于训练和评估)。根据我们的调查，我们发现在5个不同的模型(和20个评估)中，MVP的平均准确率(89.65%)比MLP-FT高2%，比LPFT高1.3%。

表3:OOD稳健性:结果报告了在最左边一列的数据集上训练的模型的标准精度(以%为单位)，并在5个不同的OOD数据集上进行了评估。我们看到，在5个不同的模型(和20个评估)中，MVP在OOD任务上的平均准确率(89.65%)比MLP-FT高2%，比LPFT高1.3%。

表3中的这些结果表明，MVP在对抗和OOD稳健性方面优于MLP-FT和LPFT。综上所述，LPFT有助于减少随机参数脆弱性的影响，但MVP还允许预训练任务对齐(第二个假设)，从而产生卓越的性能，并且没有OOD或对抗性鲁棒性的根本权衡。

5.3 消融研究

候选答案的数量 较大的候选答案集被证明在少样本设置中可以提高干净性能（Hu等人，2022年）。在这里，我们研究了候选答案集大小对通过提示调整的模型的对抗性能的影响。单个候选答案的模型的对抗准确率为42.9%，在使用包含4个候选答案的答案集时，准确率提高到46.2%。3这些结果对应于RoBERTa基础模型在BoolQ数据集上针对TextFooler攻击的对抗性扰动。总体而言，当我们使用更大的候选集时，我们观察到对抗准确率提高了1.0--3.5%（见表2）。关于使用单个提示模板的更详细分析，请参见附录D.4。

表2:消融研究:我们研究了候选答案数量和提示模板对MVP对抗表现的影响(见§5.3)。' TFooler '和' TBugger '分别表示模型在TextFooler和TextBugger攻击下的鲁棒性。"Clean"表示模型在原始测试数据上的精度。此外，我们还评估了包含语义相似的候选答案的效果(参见§6)。所有的值在3个种子上取平均值。

提示模板的数量 我们考虑的另一个设计选择是用于预测的提示模板的数量。我们推测，当我们在多个模板之间平均 logits 时，对手可能难以改变模型预测。为了评估这一点，我们使用不同数量的提示模板（从1到4）训练MVP，并比较对抗鲁棒性。我们注意到，随着模板数量的增加，对抗准确率稳步提高，这支持了我们的初步假设（见表2）。尽管增加模板数量可以提高下游模型的鲁棒性，但MVP即使使用单个模板也能获得较大的鲁棒性增益（与MLP-FT相比）。因此，使用多个提示模板并不是MVP鲁棒性提高的根本原因。此外，为了评估所使用的提示模板"选择"的影响，我们在附录D.2中对MVP的对抗鲁棒性的提示调整影响进行了更详细的分析。我们发现，即使是空模板或随机模板也几乎与精心设计的提示表现相似，并保持了MVP相对于MLP-FT的鲁棒性优势。

6 为什么MVP可以提高鲁棒性?

我们测试了三个假设来解释在对抗性攻击的背景下，与MLP-FT相比，MVP获得的鲁棒性增益。

随机参数脆弱性 观察到的MLP-FT对抗脆弱性的一个可能解释是用于下游分类的随机初始化的线性头。这种效应背后的直觉是，微调一组随机初始化的参数可能会导致预训练模型特征扭曲，正如Kumar等人（2022年）所展示的那样。这种现象在CLIP模型（Radford等人，2021年）中也已被观察到，作者发现使用随机初始化的线性预测头微调模型会降低模型的分布外鲁棒性。在对抗鲁棒性的背景下，这种现象尚未被探索。我们通过三个实验来研究这个效应。

图3:在BoolQ数据集上训练的RoBERTa模型的各种模型调优策略每个模型范例上面也显示了相应的干净和健壮的准确性(在TextFooler攻击下)。最左边的图表显示了MLP-FT的标准微调范例，随后的每一列都修改了体系结构，帮助我们确认了随机初始化参数是导致漏洞的一个原因的假设。

表4:RoBERTa在对应于随机参数脆弱性和任务一致性假设的实验中的对抗性能平均超过3个种子(§6)。' TFooler '和' TBugger '分别表示模型在TextFooler和TextBugger攻击下的鲁棒性。"Clean"表示模型在原始测试数据上的精度。

ProjectCLS：首先，我们通过从标准MLP架构中移除密集层权重（768 × 768参数）来减少随机参数的数量。我们称之为ProjectCLS，并且只使用维度为768×C参数的投影层，其中C是类的数量（见图3(a)）。我们发现ProjectCLS平均比MLP-FT鲁棒性高约8%，这表明减少随机初始化参数的数量有助于提高模型鲁棒性（见表4）。
CLSPrompt：其次，我们训练另一个模型，CLSPrompt，在这个模型中，我们不使用MVP中的[SEP]令牌对应的概率，而是使用[CLS]令牌对应的候选答案的概率（见图3(b)）。CLSPrompt和MLP-FT之间的关键区别在于，CLSPrompt中没有随机初始化的MLP参数，我们使用候选答案对应的概率，而不是用新参数投影表示。从表4中我们可以观察到，CLSPrompt再次平均比MLP-FT鲁棒性高约8%，这为我们关于随机参数脆弱性的假设提供了强有力的证据。
LPFT（线性探测，然后微调）：对于我们的第三个实验，我们训练了两个新模型，即LPFT和DenseLPFT（见图3(c,d)）。在这两个模型中，我们进行了以下操作：（i）对[CLS]令牌对应的隐藏状态进行逻辑回归拟合（线性探测）；（ii）用逻辑回归模型学习的768×C（其中C是类的数量）矩阵初始化分类头的最后一层；（iii）像MLP-FT一样微调整个模型。LPFT和DenseLPFT之间的唯一区别是，DenseLPFT有一个额外的随机初始化的密集层，维度为768×768，而LPFT则没有。与Kumar等人（2022年）不同的是，我们测试LPFT对抗敌意操纵。我们从表4中注意到，DenseLPFT比MLP-FT更鲁棒（超过10%），但它相比于LPFT显示出较低的鲁棒性（超过2%）。这为进一步证明随机初始化参数增加了脆弱性提供了证据。

预训练任务对齐掩码填充任务与语言模型的预训练目标更加自然地对齐，我们假设通过MVP中的掩码填充进行微调会导致鲁棒性增益。为了测试这个假设，我们使用了一个未经训练的RoBERTa模型，并测量了MVP和MLP-FT模型的干净准确性和鲁棒性。我们观察到，在没有预训练的情况下，使用单个模板训练的MVP没有比基线获得任何额外的鲁棒性，实际上，MLP-FT的表现比MVP更好（见表4），而在预训练的存在下，MVP在所有设置中均优于MLP-FT（见表2）。请注意，这并不与关于随机初始化参数导致的脆弱性的假设相矛盾，因为该假设仅适用于预训练模型。这表明MVP与预训练任务的对齐对于下游任务的对敌鲁棒性至关重要。

语义相似候选答案 我们质疑鲁棒性提升是否也可以归因于候选答案与类别标签之间的语义相关性。为了回答这个问题，我们将AG-News的4类分类问题中的候选答案更改为随机专有名词（'jack', 'john', 'ann', 'ruby'），并将BoolQ的2类分类任务中的候选答案更改为（'jack', 'john'）。所有这些词都与类别标签无关。我们发现，无论我们是否使用语义相关的候选答案，模型的鲁棒准确率都在彼此的1%以内，因此暗示使用语义相似的候选答案并不是MVP鲁棒性提升的因素（见表4）。虽然在预训练、提示和预测范式（Hu等人，2022年）中，候选答案的选择至关重要，但在预训练、提示和微调范式中则无关紧要。通过对下游语料库的充分微调，模型可以学会将任何候选词与任何类别相关联，无论其语义性如何。

然而，有人可能会想知道，为什么使用"随机"候选词不会损害模型的鲁棒性，因为这同样会导致修改模型嵌入空间中的"参数"，而这个参数最初与类别标签无关。我们在附录D.3中详细分析了这个问题，并得出结论，保持鲁棒性的主要原因是"预训练任务假设"，以及修改后的词嵌入具有尺寸远小于修改密集层的大小，为768 x C（其中C是候选词的数量）。

7 人类研究

我们进行了一项人类研究，以评估对抗性攻击的可行性。更具体地说，我们为机器学习研究生提供250个输入示例，并提出以下问题:(a)句子的感知标签是什么;(b)他们对这一标签的信心如何;(c)这句话是否被恶意篡改?我们使用BoolQ数据集，并严格要求注释者不要使用任何外部知识，而只能使用给定段落的上下文。我们使用被TextFooler成功攻击的样本进行MVP + Adv模型与RoBERTa主干。作为研究的对照，我们提供了33%的原始句子而不是对抗性干扰的句子。

基础模型达到了81.7%的干净精度和54.0%的鲁棒精度。我们发现，人类注释者识别出29%的对抗性示例受到干扰，而只有6%的干净示例受到干扰。此外，我们还发现，与干净的样本相比，人类在对抗样本上的准确率降低了11%(85%→74%)，而在扰动样本标签上的平均置信度降低了15%(90%→75%)。这项研究强调，一小部分对抗性攻击要么对输入进行了如此显著的操纵，以至于很容易被检测到，要么改变了标签，这表明MVP比§5中的粗略统计数据更健壮。有关人类研究的细节见附录F.1。

8 结论

在这项工作中，我们通过提示来测试语言模型在适应下游分类任务时的鲁棒性。值得注意的是，通过提示进行模型调优------不使用任何类型的对抗性训练或提示工程------在对抗性文本分类中已经比最先进的方法平均高出3.5%以上。此外，我们发现，与传统的MLP头部微调方法(MLP- FT)相比，MVP是样本效率高的，也表现出高的有效鲁棒性。我们发现，基线方法鲁棒性的缺乏很大程度上归因于预训练和微调任务之间缺乏一致性，以及引入新的随机初始化参数。

9 局限性

这项工作考虑了小于1B个参数大小的模型。虽然更大的模型在NLP社区中越来越流行，但开发可扩展到如此大模型的实际攻击是一项极具挑战性的任务。例如，对于本文中考虑的评估，每次攻击在单个A6000 GPU上运行大约需要一天(跨越模型的多个种子)。此外，我们的工作范围仅限于使用MLP头进行微调的任务。这包括布尔问题回答、句子分类和释义检测任务。最后，在MVP中使用多个模板需要权衡延迟，这在附录D.1中有讨论。

更广泛的影响我们的工作不会对社会造成任何直接的负面影响，除了由于大型模型的培训和评估而产生的碳排放。我们强调，通过MVP赋予的对抗性鲁棒性是部署系统的理想属性，我们的工作有助于使NLP模型在部署到现实环境时更加可靠和安全。