论文 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust

这篇论文研究了使用提示 (Prompting) 方法微调预训练语言模型，以提高其在对抗样本攻击下的鲁棒性。论文的主要贡献如下：

1.MVP 比 MLP-FT 更鲁棒：

论文比较了 MVP (Model-tuning Via Prompts) 和传统的 MLP-FT (Fine-tuning with an MLP head) 方法，发现 MVP 在对抗样本攻击下表现更鲁棒，平均提升 8% 的准确率，甚至在某些情况下超过了基于对抗训练的 SOTA 防御方法。

论文还发现，将 MVP 与单步对抗训练结合，可以进一步提升鲁棒性，而不会影响无对抗样本时的准确率。

2.MVP 更样本高效，有效鲁棒性更高：

论文通过实验证明了 MVP 在低数据环境下比 MLP-FT 更样本高效，即使用更少的训练样本就能达到相同的准确率。

论文还定义了有效鲁棒性指标，用于衡量具有相同无对抗样本准确率的模型的鲁棒性。结果表明，MVP 的有效鲁棒性也比 MLP-FT 更高。

3. MVP 鲁棒性提升的原因：

论文提出了三个假设来解释 MVP 鲁棒性提升的原因：

随机参数脆弱性： MLP-FT 使用随机初始化的线性层，容易导致特征扭曲，从而降低鲁棒性。实验结果表明，减少随机参数数量可以提升模型鲁棒性。

预训练任务对齐： MVP 使用掩码填空任务，与预训练目标更一致，有助于提升鲁棒性。实验结果表明，没有预训练的模型，MVP 和 MLP-FT 的鲁棒性表现相似，说明预训练任务对齐是关键因素。

候选答案语义：论文发现，即使使用随机候选答案，MVP 的鲁棒性依然很高，说明候选答案的语义与类别标签是否相关并不影响鲁棒性。

4. 人机实验验证对抗样本的有效性：

论文通过人机实验发现，人类标注者更容易识别对抗样本，并且对抗样本的准确率和置信度都低于无对抗样本，说明 MVP 的鲁棒性提升是有效的。
5. MVP 在 OOD 任务上的鲁棒性提升：

论文还发现，MVP 在 OOD (Out-of-Distribution) 任务上的鲁棒性也比 MLP-FT 更高，平均提升 2% 的准确率。
总结：

这篇论文为 NLP 模型的鲁棒性提升提供了一种新的思路，即使用提示方法进行微调。MVP 方法简单易行，无需对抗训练或提示工程，就能有效提升模型在对抗样本攻击下的鲁棒性。未来研究可以探索将 MVP 应用于更大规模的模型，以及更多类型的 NLP 任务。