【论文笔记】Parameter-Efficient Transfer Learning for NLP

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : Parameter-Efficient Transfer Learning for NLP
作者 : Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly
发表 : ICML 2019
arXiv : https://arxiv.org/abs/1902.00751

摘要

参数高效的NLP迁移学习对NLP中的大型预训练模型微调是一种有效的迁移机制。

然而,在存在许多下游任务的情况下,微调在参数上效率低下:每个任务都需要一个全新的模型。

作为替代方案,我们提出了带有适配器模块的迁移。

适配器模块产生一个紧凑且可扩展的模型;它们为每个任务仅添加少量可训练参数,并且可以添加新任务而无需重新访问之前的任务。

原始网络的参数保持不变,从而实现了高度的参数共享。

为了证明适配器的有效性,我们将最近提出的BERT Transformer模型迁移到26个不同的文本分类任务中,包括GLUE基准。

适配器达到了接近最先进的性能,而每个任务仅添加少量参数。

在GLUE上,我们的性能与完全微调相差0.4%,每个任务仅添加3.6%的参数。

相比之下,微调为每个任务训练了100%的参数。

Adapter tuning与全量微调两种微调方法微调效果随可训练参数量变化的比较。

Adapter tuning

在Transformer Layer的各个模块之间加入Adapter Layer。

Adapter Layer将特征由高维降至低维,经过非线性函数再从低维恢复到高维,并带有残差连接。

微调时冻结其他参数,只微调Adapter Layer。

实验

相关推荐
我没胡说八道37 分钟前
高校论文AI检测优化工具对比研究与实测分析(2026)
人工智能·深度学习·机器学习·计算机视觉·aigc·论文
秦亚伟38 分钟前
AI浪潮重塑融资租赁行业新格局
人工智能
love530love39 分钟前
LiveTalking 数字人项目 Windows 部署完全指南(EPGF 架构)
人工智能·windows·python·架构·livetalking·epgf
元启数宇39 分钟前
喷淋AI布点实战:8小时人工布点→20分钟自动出图
人工智能
哈哈,柳暗花明40 分钟前
人工智能专业术语详解(H)
人工智能·专业术语
圣殿骑士-Khtangc41 分钟前
AI 编程工具 2026 实战横评:Cursor 3 vs Claude Code vs Copilot,开发者选型完全指南
人工智能·copilot
云器科技1 小时前
云器Lakehouse 2026年5月版本发布:拥抱 AI Agent,重塑数据智能开发新范式
人工智能
小鹰-上海鹰谷-电子实验记录本1 小时前
第六届党建引领科创生态座谈会 | 邓光辉博士出席分享AI赋能创新药科研新范式
人工智能·ai·电子实验记录本·药企合规
极客老王说Agent1 小时前
2026电信IDC机房巡检深度报告:人工巡检频次和深度够吗?实在Agent重塑智慧运维新范式
人工智能·ai·chatgpt
海兰1 小时前
【水浒传:第二篇】AI江湖 —项目详细设计指南(一)
jvm·人工智能·游戏