论文 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust

这篇论文研究了使用提示 (Prompting) 方法微调预训练语言模型,以提高其在对抗样本攻击下的鲁棒性。论文的主要贡献如下:

1.MVP 比 MLP-FT 更鲁棒:

论文比较了 MVP (Model-tuning Via Prompts) 和传统的 MLP-FT (Fine-tuning with an MLP head) 方法,发现 MVP 在对抗样本攻击下表现更鲁棒,平均提升 8% 的准确率,甚至在某些情况下超过了基于对抗训练的 SOTA 防御方法。

论文还发现,将 MVP 与单步对抗训练结合,可以进一步提升鲁棒性,而不会影响无对抗样本时的准确率。

2.MVP 更样本高效,有效鲁棒性更高:

论文通过实验证明了 MVP 在低数据环境下比 MLP-FT 更样本高效,即使用更少的训练样本就能达到相同的准确率。

论文还定义了有效鲁棒性指标,用于衡量具有相同无对抗样本准确率的模型的鲁棒性。结果表明,MVP 的有效鲁棒性也比 MLP-FT 更高。

3. MVP 鲁棒性提升的原因:

论文提出了三个假设来解释 MVP 鲁棒性提升的原因:

随机参数脆弱性: MLP-FT 使用随机初始化的线性层,容易导致特征扭曲,从而降低鲁棒性。实验结果表明,减少随机参数数量可以提升模型鲁棒性。

预训练任务对齐: MVP 使用掩码填空任务,与预训练目标更一致,有助于提升鲁棒性。实验结果表明,没有预训练的模型,MVP 和 MLP-FT 的鲁棒性表现相似,说明预训练任务对齐是关键因素。

候选答案语义: 论文发现,即使使用随机候选答案,MVP 的鲁棒性依然很高,说明候选答案的语义与类别标签是否相关并不影响鲁棒性。

4. 人机实验验证对抗样本的有效性:

论文通过人机实验发现,人类标注者更容易识别对抗样本,并且对抗样本的准确率和置信度都低于无对抗样本,说明 MVP 的鲁棒性提升是有效的。
5. MVP 在 OOD 任务上的鲁棒性提升:

论文还发现,MVP 在 OOD (Out-of-Distribution) 任务上的鲁棒性也比 MLP-FT 更高,平均提升 2% 的准确率。
总结:

这篇论文为 NLP 模型的鲁棒性提升提供了一种新的思路,即使用提示方法进行微调。MVP 方法简单易行,无需对抗训练或提示工程,就能有效提升模型在对抗样本攻击下的鲁棒性。未来研究可以探索将 MVP 应用于更大规模的模型,以及更多类型的 NLP 任务。

相关推荐
摸鱼仙人~15 小时前
中国内需市场的战略重构与潜在增长点深度研究报告
大数据·人工智能
一招定胜负15 小时前
自然语言处理CBOW模型:基于上下文预测中间词
人工智能·深度学习·机器学习
jimmyleeee15 小时前
人工智能基础知识笔记三十二:向量数据库的查找类型和工作原理
人工智能·笔记
像风一样自由202015 小时前
MCP 入门指南:让 AI 连接真实世界
人工智能
尚可签15 小时前
怎么降低AI率(文本)?最近发现了非常简单的思路
人工智能
咕噜企业分发小米15 小时前
阿里云AI教育产品如何助力企业提升客户粘性?
人工智能·microsoft·阿里云
华如锦15 小时前
四:从零搭建一个RAG
java·开发语言·人工智能·python·机器学习·spring cloud·计算机视觉
F_D_Z15 小时前
TensorFlow Playground 交互式神经网络可视化工具
人工智能·神经网络·tensorflow
杭州泽沃电子科技有限公司15 小时前
核电的“热血管”与它的智能脉搏:热转换在线监测如何守护能源生命线
人工智能·在线监测
yuzhiboyouye16 小时前
指引上调是什么意思
人工智能