【论文笔记】Parameter-Efficient Transfer Learning for NLP

🍎个人主页:小嗷犬的个人主页

🍊个人网站:小嗷犬的技术小站

🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题 : Parameter-Efficient Transfer Learning for NLP
作者 : Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly
发表 : ICML 2019
arXiv : https://arxiv.org/abs/1902.00751

摘要

参数高效的NLP迁移学习对NLP中的大型预训练模型微调是一种有效的迁移机制。

然而,在存在许多下游任务的情况下,微调在参数上效率低下:每个任务都需要一个全新的模型。

作为替代方案,我们提出了带有适配器模块的迁移。

适配器模块产生一个紧凑且可扩展的模型;它们为每个任务仅添加少量可训练参数,并且可以添加新任务而无需重新访问之前的任务。

原始网络的参数保持不变,从而实现了高度的参数共享。

为了证明适配器的有效性,我们将最近提出的BERT Transformer模型迁移到26个不同的文本分类任务中,包括GLUE基准。

适配器达到了接近最先进的性能,而每个任务仅添加少量参数。

在GLUE上,我们的性能与完全微调相差0.4%,每个任务仅添加3.6%的参数。

相比之下,微调为每个任务训练了100%的参数。

Adapter tuning与全量微调两种微调方法微调效果随可训练参数量变化的比较。

Adapter tuning

在Transformer Layer的各个模块之间加入Adapter Layer。

Adapter Layer将特征由高维降至低维,经过非线性函数再从低维恢复到高维,并带有残差连接。

微调时冻结其他参数,只微调Adapter Layer。

实验

相关推荐
xixixi777774 分钟前
Hugging Face 开源模型供应链安全平台、AI 数据隐私保护法草案发布:AI 安全合规进入技术 + 法律双驱动阶段
大数据·人工智能·安全·ai·开源·大模型·智能体
真实的菜5 分钟前
Deepseek V4 Flash 深度评测:参数解析与实战边界
人工智能
扫地僧9855 分钟前
基于改进版YOLOv11的海洋垃圾检测系统设计与实现
人工智能·深度学习·yolo
ZHW_AI课题组5 分钟前
基于XGBoost的鸢尾花花瓣长度回归预测
人工智能·数据挖掘·回归
moMo6 分钟前
藏好Key的小妙招,从搭建node.js+大模型项目开始
人工智能·node.js
前端摸鱼匠6 分钟前
YOLOv11 深入 Ultralytics 框架的源码目录,解析 ultralytics/cfg/models/11/ 下的模型配置文件,以及 ultralytics/nn/modules/下的模块
人工智能·yolo·目标检测·计算机视觉·目标跟踪
KaMeidebaby6 分钟前
卡梅德生物技术快报|组蛋白乙酰化修饰调控动脉粥样硬化的分子机制及中药表观干预研究
网络·人工智能·网络协议·tcp/ip·算法
SEO_juper6 分钟前
搜索进入 Agentic 智能体时代,内容要能 “被 AI 直接用”
人工智能·ai·seo·跨境电商·geo·谷歌优化·2026
装不满的克莱因瓶7 分钟前
机器学习和数据科学的基石:NumPy详解与实战技巧
人工智能·线性代数·机器学习·ai·矩阵·numpy
好好风格8 分钟前
微软这个 14 万星工具,把 PDF、PPT、Excel 都变成大模型爱读的 Markdown
人工智能·python·开源