论文 | Evaluating the Robustness of Discrete Prompts

论文《Evaluating the Robustness of Discrete Prompts》深入探讨了离散提示（Discrete Prompts）的鲁棒性，即离散提示在自然语言处理任务中面对不同扰动时的表现。研究特别关注离散提示在自然语言推理（NLI）任务中的表现，并在一些基准数据集上测试了其对扰动的敏感性。本文主要分析了AutoPrompt (AP) 与人工编写提示（MP）在鲁棒性方面的差异。

1. 研究背景

预训练语言模型（PLM）已在诸如情感分类和自然语言推理等NLP任务中被广泛应用。传统上，手动编写的提示有助于模型理解任务，但手动提示往往无法覆盖所有的场景，尤其在数据稀缺的情况下更显得不够灵活。自动学习的离散提示，如AutoPrompt (AP)，通过少量训练样本生成提示，尽管能取得不错的表现，但这些自动提示常包含不符合常规语法的字符或拼写错误，从而引发了人们对其鲁棒性的质疑。

2. 研究方法

论文采用了多个实验来评估离散提示的鲁棒性，通过在提示上引入不同类型的扰动，包括：

提示词的重新排序：随机打乱提示中的词序。
词删除实验：从提示中删除部分词。
跨数据集测试：在不同数据集之间迁移训练所得的提示，评估其跨数据集的泛化性。
对抗性扰动：人为修改推理句子以观察提示在标签不变和标签变动情况下的表现。

3. 实验设计与数据集

本研究以RoBERTa-large作为模型基础，通过AutoPrompt (AP)、手动提示 (MP)、和Head-based Fine-Tuning (HFT) 三种方法进行测试。实验使用了CommitmentBank (CB) 和 Multi-Genre Natural Language Inference Corpus (MNLI) 两个自然语言推理数据集，以确保实验的公平性与结论的可复现性。

鲁棒性评估指标：通过准确率下降率（RoD）来衡量模型的鲁棒性。RoD越小，表明模型对扰动的鲁棒性越强。

4. 实验结果与分析

4.1 数据集规模对模型的影响

随着训练样本数量的增加，MP的准确率普遍优于AP。尤其在CB数据集中，当样本量为200时，MP的准确率达到92.7%，而AP仅为54.2%。这表明AP对数据集的依赖性较强，其在不同任务或数据集上的表现差异显著。

4.2 提示词的重新排序

实验显示，AP在词序发生变化时表现出较大的准确率下降。例如，在CB数据集中，AP的准确率下降了约14%，而MP仅下降约2%。这说明AP自动生成的离散提示对词序的依赖性较高。

4.3 词删除实验

在AP和MP的提示中分别删除部分提示词，结果发现删除单词对AP的影响较大。尤其在CB数据集中，AP表现出更高的RoD值，而在MNLI数据集上AP的表现则相对较为稳健。这表明AP的鲁棒性不仅取决于提示词的顺序，还与数据集本身有较大关联。

4.4 跨数据集测试

在跨数据集测试中，AP和MP的泛化性较差，尤其是从CB到MNLI的数据集迁移中，RoD值较高。这表明MNLI数据集更适合作为通用自然语言推理任务的微调数据集，而AP训练出的提示在不同数据集间表现出明显的适应性不足。

4.5 对抗性扰动

在对抗性扰动下，AP比MP表现出更好的鲁棒性，特别是在标签改变的情况下。即便如此，当输入句子发生细微变化时，AP与MP的准确率均出现显著下降。这意味着当前的离散提示方法尚不能抵御复杂的对抗性扰动。

5. 结论

本文揭示了离散提示在面对不同扰动时的脆弱性，尤其是在提示词顺序和跨数据集泛化性方面存在显著的不足。AP方法虽然在少量数据训练中取得较高性能，但对数据集和提示词结构的依赖性较高，泛化能力不足。未来的研究需着重开发既精确又具鲁棒性的提示生成方法，以提升离散提示在不同任务和数据集上的适应性和稳定性。

6. 限制与未来工作

本研究仅考察了AutoPrompt和手动提示的鲁棒性，未来可扩展到其他提示生成方法。同时，本研究使用的RoBERTa-large模型在性别偏见等方面存在已知的社会偏见，因此，进一步研究需在使用模型时注意伦理风险。此外，本研究仅在英语数据集上进行，其他语言的适用性仍待验证。

总结

这篇论文通过系统实验揭示了离散提示生成方法在面对随机和对抗性扰动时的鲁棒性，指出了AutoPrompt和手动提示在鲁棒性和泛化性方面的缺陷，并为未来研究提供了重要参考。这一研究强调了在数据稀缺条件下开发稳定且通用提示生成方法的必要性，同时对提示生成方法的适用性提出了新挑战。