【论文笔记】Parameter-Efficient Transfer Learning for NLP

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : Parameter-Efficient Transfer Learning for NLP
作者 : Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly
发表 : ICML 2019
arXiv : https://arxiv.org/abs/1902.00751

摘要

参数高效的NLP迁移学习对NLP中的大型预训练模型微调是一种有效的迁移机制。

然而,在存在许多下游任务的情况下,微调在参数上效率低下:每个任务都需要一个全新的模型。

作为替代方案,我们提出了带有适配器模块的迁移。

适配器模块产生一个紧凑且可扩展的模型;它们为每个任务仅添加少量可训练参数,并且可以添加新任务而无需重新访问之前的任务。

原始网络的参数保持不变,从而实现了高度的参数共享。

为了证明适配器的有效性,我们将最近提出的BERT Transformer模型迁移到26个不同的文本分类任务中,包括GLUE基准。

适配器达到了接近最先进的性能,而每个任务仅添加少量参数。

在GLUE上,我们的性能与完全微调相差0.4%,每个任务仅添加3.6%的参数。

相比之下,微调为每个任务训练了100%的参数。

Adapter tuning与全量微调两种微调方法微调效果随可训练参数量变化的比较。

Adapter tuning

在Transformer Layer的各个模块之间加入Adapter Layer。

Adapter Layer将特征由高维降至低维,经过非线性函数再从低维恢复到高维,并带有残差连接。

微调时冻结其他参数,只微调Adapter Layer。

实验

相关推荐
AI_Auto3 分钟前
【智能制造】- MES+智能体Agent8大落地场景
人工智能·制造
莱歌数字4 分钟前
你的边缘AI盒子为什么烫手?——散热设计的最后一道物理防线
人工智能·科技·电脑·制造·散热
AI周红伟5 分钟前
All in Token,百度李彦宏指出:Token经济,阿里,百度,腾讯,字节,移动,电信,联通,华为,开启新的Token战争
大数据·人工智能·windows·百度·copilot·openclaw
不懂的浪漫10 分钟前
AGI 需要身体:从 Manus 到企业 Agent Runtime
人工智能·agent·agi·runtime
XD74297163611 分钟前
科技早报晚报|2026年5月17日:建筑估算自动化、支持排障录屏与端侧多语言 TTS,今天更值得跟进的 3 个技术机会
人工智能·科技·科技新闻·开发者工具·垂直ai·科技早报
Luhui Dev16 分钟前
几何作图完全指南:从基础构造到三角形、圆与多边形
人工智能·数学·大角几何·luhuidev
XD74297163618 分钟前
科技早报|2026年5月17日:AI 工具开始补长期工作能力
人工智能·科技·开发者工具·科技早报
山西茄子22 分钟前
LLM的相关概念
人工智能
ftpeak23 分钟前
LangGraph Agent 开发指南(12~函数式 API)
人工智能·python·ai·langchain·langgraph
闵孚龙24 分钟前
Claude Code Hooks 用户自定义拦截点全解析:AI Agent 自动化、安全治理、插件扩展、可观测性核心机制
人工智能·安全·自动化