【论文笔记】Parameter-Efficient Transfer Learning for NLP

小嗷犬2024-11-11 16:41

🍎个人主页：小嗷犬的个人主页

🍊个人网站：小嗷犬的技术小站

🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题 : Parameter-Efficient Transfer Learning for NLP
作者 : Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly
发表 : ICML 2019
arXiv : https://arxiv.org/abs/1902.00751

摘要

参数高效的NLP迁移学习对NLP中的大型预训练模型微调是一种有效的迁移机制。

然而，在存在许多下游任务的情况下，微调在参数上效率低下：每个任务都需要一个全新的模型。

作为替代方案，我们提出了带有适配器模块的迁移。

适配器模块产生一个紧凑且可扩展的模型；它们为每个任务仅添加少量可训练参数，并且可以添加新任务而无需重新访问之前的任务。

原始网络的参数保持不变，从而实现了高度的参数共享。

为了证明适配器的有效性，我们将最近提出的BERT Transformer模型迁移到26个不同的文本分类任务中，包括GLUE基准。

适配器达到了接近最先进的性能，而每个任务仅添加少量参数。

在GLUE上，我们的性能与完全微调相差0.4%，每个任务仅添加3.6%的参数。

相比之下，微调为每个任务训练了100%的参数。

Adapter tuning与全量微调两种微调方法微调效果随可训练参数量变化的比较。

Adapter tuning

在Transformer Layer的各个模块之间加入Adapter Layer。

Adapter Layer将特征由高维降至低维，经过非线性函数再从低维恢复到高维，并带有残差连接。

微调时冻结其他参数，只微调Adapter Layer。

实验

上一篇：【OceanBase 诊断调优】—— 大查询线程的管理和调度机制

下一篇：【VScode】如何在VSCode中配置Python开发环境：从零开始的完整指南

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03Window 10部署openclaw报错node.exe : npm error code 128 04OpenClaw + 飞书（Feishu）环境搭建指南 05OpenClaw 连接飞书完整指南：插件安装、配置与踩坑记录 06本地部署 OpenClaw + DeepSeek-R1 完全指南 07Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 08小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）09OpenClaw 飞书机器人不回复消息？3 小时踩坑总结 10Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤