【论文笔记】Parameter-Efficient Transfer Learning for NLP

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : Parameter-Efficient Transfer Learning for NLP
作者 : Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly
发表 : ICML 2019
arXiv : https://arxiv.org/abs/1902.00751

摘要

参数高效的NLP迁移学习对NLP中的大型预训练模型微调是一种有效的迁移机制。

然而,在存在许多下游任务的情况下,微调在参数上效率低下:每个任务都需要一个全新的模型。

作为替代方案,我们提出了带有适配器模块的迁移。

适配器模块产生一个紧凑且可扩展的模型;它们为每个任务仅添加少量可训练参数,并且可以添加新任务而无需重新访问之前的任务。

原始网络的参数保持不变,从而实现了高度的参数共享。

为了证明适配器的有效性,我们将最近提出的BERT Transformer模型迁移到26个不同的文本分类任务中,包括GLUE基准。

适配器达到了接近最先进的性能,而每个任务仅添加少量参数。

在GLUE上,我们的性能与完全微调相差0.4%,每个任务仅添加3.6%的参数。

相比之下,微调为每个任务训练了100%的参数。

Adapter tuning与全量微调两种微调方法微调效果随可训练参数量变化的比较。

Adapter tuning

在Transformer Layer的各个模块之间加入Adapter Layer。

Adapter Layer将特征由高维降至低维,经过非线性函数再从低维恢复到高维,并带有残差连接。

微调时冻结其他参数,只微调Adapter Layer。

实验

相关推荐
l1122060311 小时前
GEO 优化公司选品指南:江苏一网推的阶梯式服务核心竞争力
大数据·人工智能
格林威11 小时前
工业相机图像高速存储(C++版):直接IO存储方法,附海康相机实战代码!
开发语言·c++·人工智能·数码相机·计算机视觉·视觉检测·工业相机
aZhe的全栈知识分享11 小时前
OpenClaw(龙虾)太难装?这份保姆级教程让你 3 分钟搞定
前端·人工智能·后端
东离与糖宝11 小时前
315警示:AI接口被恶意调用?Java高并发+限流+鉴权防护实战
java·人工智能
Bruce_Liuxiaowei11 小时前
深入浅出:清理 OpenClaw 会话记录的完整操作解析
人工智能·大模型·智能体·openclaw
用户48159301959111 小时前
买东西总是刚下单就降价?本文以 **`price-watch`(商品降价监控器)** 为例,手把手带你写一个真正有用的 OpenClaw Skill,从零开始到
人工智能
chatexcel11 小时前
什么是AI的SOUL?如何定制专属AI助理
大数据·人工智能
CrystalShaw11 小时前
[AI codec]opus-1.6\dnn包含算法汇总和文件功能分类
人工智能·算法·dnn
仙女修炼史11 小时前
Copy-Past 解决小目标检测问题
人工智能·目标检测·计算机视觉
2301_7644413311 小时前
ProjectAIRI:是一个开源的AI虚拟数字人伴侣
人工智能·目标检测·自然语言处理·开源·视觉检测·语音识别