【论文笔记】Parameter-Efficient Transfer Learning for NLP

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : Parameter-Efficient Transfer Learning for NLP
作者 : Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly
发表 : ICML 2019
arXiv : https://arxiv.org/abs/1902.00751

摘要

参数高效的NLP迁移学习对NLP中的大型预训练模型微调是一种有效的迁移机制。

然而,在存在许多下游任务的情况下,微调在参数上效率低下:每个任务都需要一个全新的模型。

作为替代方案,我们提出了带有适配器模块的迁移。

适配器模块产生一个紧凑且可扩展的模型;它们为每个任务仅添加少量可训练参数,并且可以添加新任务而无需重新访问之前的任务。

原始网络的参数保持不变,从而实现了高度的参数共享。

为了证明适配器的有效性,我们将最近提出的BERT Transformer模型迁移到26个不同的文本分类任务中,包括GLUE基准。

适配器达到了接近最先进的性能,而每个任务仅添加少量参数。

在GLUE上,我们的性能与完全微调相差0.4%,每个任务仅添加3.6%的参数。

相比之下,微调为每个任务训练了100%的参数。

Adapter tuning与全量微调两种微调方法微调效果随可训练参数量变化的比较。

Adapter tuning

在Transformer Layer的各个模块之间加入Adapter Layer。

Adapter Layer将特征由高维降至低维,经过非线性函数再从低维恢复到高维,并带有残差连接。

微调时冻结其他参数,只微调Adapter Layer。

实验

相关推荐
week_泽2 分钟前
第3课:构建AI代理系统面临的挑战 - 学习笔记_3
人工智能·笔记·学习·ai agent
林_学8 分钟前
我是如何把应用上线时间从1天缩短到3分钟的
人工智能
钓了猫的鱼儿8 分钟前
农作物病虫害目标检测数据集(百度网盘地址)
人工智能·目标检测·目标跟踪
万行11 分钟前
机器人系统ros2&期末速通2
前端·人工智能·python·算法·机器学习
qwerasda12385213 分钟前
基于改进的SABL Cascade RNN的安全装备检测系统:手套护目镜安全帽防护服安全鞋识别与实现_r101_fpn_1x_coco_1
人工智能·rnn·安全
实战项目13 分钟前
基于PyTorchMobile的语音识别模型部署与调优
人工智能·语音识别
AI即插即用14 分钟前
超分辨率重建 | 2025 FIWHN:轻量级超分辨率 SOTA!基于“宽残差”与 Transformer 混合架构的高效网络(代码实践)
图像处理·人工智能·深度学习·计算机视觉·transformer·超分辨率重建
小北方城市网14 分钟前
数据库性能优化实战指南:从索引到架构,根治性能瓶颈
数据结构·数据库·人工智能·性能优化·架构·哈希算法·散列表
万行14 分钟前
机器人系统ros2&期末速通&1
人工智能·python·机器学习·机器人
轻竹办公PPT15 分钟前
AI 生成 2026 年工作计划 PPT,逻辑清晰度对比测试
人工智能·python·powerpoint