论文 | Evaluating the Robustness of Discrete Prompts

论文《Evaluating the Robustness of Discrete Prompts》深入探讨了离散提示(Discrete Prompts)的鲁棒性,即离散提示在自然语言处理任务中面对不同扰动时的表现。研究特别关注离散提示在自然语言推理(NLI)任务中的表现,并在一些基准数据集上测试了其对扰动的敏感性。本文主要分析了AutoPrompt (AP) 与人工编写提示(MP)在鲁棒性方面的差异。

1. 研究背景

预训练语言模型(PLM)已在诸如情感分类和自然语言推理等NLP任务中被广泛应用。传统上,手动编写的提示有助于模型理解任务,但手动提示往往无法覆盖所有的场景,尤其在数据稀缺的情况下更显得不够灵活。自动学习的离散提示,如AutoPrompt (AP),通过少量训练样本生成提示,尽管能取得不错的表现,但这些自动提示常包含不符合常规语法的字符或拼写错误,从而引发了人们对其鲁棒性的质疑。

2. 研究方法

论文采用了多个实验来评估离散提示的鲁棒性,通过在提示上引入不同类型的扰动,包括:

  • 提示词的重新排序:随机打乱提示中的词序。
  • 词删除实验:从提示中删除部分词。
  • 跨数据集测试:在不同数据集之间迁移训练所得的提示,评估其跨数据集的泛化性。
  • 对抗性扰动:人为修改推理句子以观察提示在标签不变和标签变动情况下的表现。

3. 实验设计与数据集

本研究以RoBERTa-large作为模型基础,通过AutoPrompt (AP)、手动提示 (MP)、和Head-based Fine-Tuning (HFT) 三种方法进行测试。实验使用了CommitmentBank (CB) 和 Multi-Genre Natural Language Inference Corpus (MNLI) 两个自然语言推理数据集,以确保实验的公平性与结论的可复现性。

鲁棒性评估指标:通过准确率下降率(RoD)来衡量模型的鲁棒性。RoD越小,表明模型对扰动的鲁棒性越强。

4. 实验结果与分析

4.1 数据集规模对模型的影响

随着训练样本数量的增加,MP的准确率普遍优于AP。尤其在CB数据集中,当样本量为200时,MP的准确率达到92.7%,而AP仅为54.2%。这表明AP对数据集的依赖性较强,其在不同任务或数据集上的表现差异显著。

4.2 提示词的重新排序

实验显示,AP在词序发生变化时表现出较大的准确率下降。例如,在CB数据集中,AP的准确率下降了约14%,而MP仅下降约2%。这说明AP自动生成的离散提示对词序的依赖性较高。

4.3 词删除实验

在AP和MP的提示中分别删除部分提示词,结果发现删除单词对AP的影响较大。尤其在CB数据集中,AP表现出更高的RoD值,而在MNLI数据集上AP的表现则相对较为稳健。这表明AP的鲁棒性不仅取决于提示词的顺序,还与数据集本身有较大关联。

4.4 跨数据集测试

在跨数据集测试中,AP和MP的泛化性较差,尤其是从CB到MNLI的数据集迁移中,RoD值较高。这表明MNLI数据集更适合作为通用自然语言推理任务的微调数据集,而AP训练出的提示在不同数据集间表现出明显的适应性不足。

4.5 对抗性扰动

在对抗性扰动下,AP比MP表现出更好的鲁棒性,特别是在标签改变的情况下。即便如此,当输入句子发生细微变化时,AP与MP的准确率均出现显著下降。这意味着当前的离散提示方法尚不能抵御复杂的对抗性扰动。

5. 结论

本文揭示了离散提示在面对不同扰动时的脆弱性,尤其是在提示词顺序和跨数据集泛化性方面存在显著的不足。AP方法虽然在少量数据训练中取得较高性能,但对数据集和提示词结构的依赖性较高,泛化能力不足。未来的研究需着重开发既精确又具鲁棒性的提示生成方法,以提升离散提示在不同任务和数据集上的适应性和稳定性。

6. 限制与未来工作

本研究仅考察了AutoPrompt和手动提示的鲁棒性,未来可扩展到其他提示生成方法。同时,本研究使用的RoBERTa-large模型在性别偏见等方面存在已知的社会偏见,因此,进一步研究需在使用模型时注意伦理风险。此外,本研究仅在英语数据集上进行,其他语言的适用性仍待验证。

总结

这篇论文通过系统实验揭示了离散提示生成方法在面对随机和对抗性扰动时的鲁棒性,指出了AutoPrompt和手动提示在鲁棒性和泛化性方面的缺陷,并为未来研究提供了重要参考。这一研究强调了在数据稀缺条件下开发稳定且通用提示生成方法的必要性,同时对提示生成方法的适用性提出了新挑战。

相关推荐
云起无垠25 分钟前
【论文速读】| FirmRCA:面向 ARM 嵌入式固件的后模糊测试分析,并实现高效的基于事件的故障定位
人工智能·自动化
Leweslyh3 小时前
物理信息神经网络(PINN)八课时教案
人工智能·深度学习·神经网络·物理信息神经网络
love you joyfully3 小时前
目标检测与R-CNN——pytorch与paddle实现目标检测与R-CNN
人工智能·pytorch·目标检测·cnn·paddle
该醒醒了~3 小时前
PaddlePaddle推理模型利用Paddle2ONNX转换成onnx模型
人工智能·paddlepaddle
小树苗1933 小时前
DePIN潜力项目Spheron解读:激活闲置硬件,赋能Web3与AI
人工智能·web3
凡人的AI工具箱3 小时前
每天40分玩转Django:Django测试
数据库·人工智能·后端·python·django·sqlite
大多_C3 小时前
BERT outputs
人工智能·深度学习·bert
Debroon4 小时前
乳腺癌多模态诊断解释框架:CNN + 可解释 AI 可视化
人工智能·神经网络·cnn
反方向的钟儿4 小时前
非结构化数据分析与应用(Unstructured data analysis and applications)(pt3)图像数据分析1
人工智能·计算机视觉·数据分析
Heartsuit4 小时前
LLM大语言模型私有化部署-使用Dify的工作流编排打造专属AI搜索引擎
人工智能·dify·ollama·qwen2.5·ai搜索引擎·tavily search·工作流编排