datawhale 大模型学习第六章-大模型之Adaptation（未完）

fan_fan_feng2024-01-26 12:33

一、为什么需要Adaptation

1.1 简介

从语言模型的训练方式来说，例如GPT-3，训练语料通常是海量的，各种领域的，不针对任何特定任务的文本信息。

这种方法的优点在于模型具有广泛的适用性，但也带来了一些挑战。比如下游任务的多样性，不同的下游任务与语言模型的预训练方式可以非常不同：

格式不同 ：BERT训练过程中使用了MASK标记，而许多下游任务可能并不使用这些标记。
自然语言推理任务（NLI）涉及两个句子的比较以产生单一的二进制输出
主题变化：专业领域的时候，需要的文本或者话术都需要集中在专业领域。
**时间转变：**下游任务中出现了预训练中没有出现过的knowledge。原因有：1. 训练时多数据集已经和预测数据集不同。2. 下游任务数据集不能公开使用

1.2 大模型Adaptation训练一般流程

准备一个预训练大模型（pre-trained LM） ：适配阶段的开始，我们已经有了一个预训练的语言模型，用参数来表示
下游任务数据集（downstream task dataset） ：下游任务的训练集。例如文本分类任务，由输入x和输出y组成：
适配参数（Adaptation Parameters） :为了使得预训练大模型（LM）适配下游任务，需要定义参数，调整参数以后使得大模型在下游任务上面表现更好
任务损失函数（Task Loss Function）:损失函数 ℓtask 来衡量模型在下游任务上的表现。例如，交叉熵损失是一种常见的选择，用于衡量模型预测的概率分布与真实分布之间的差异。
优化问题（Optimization Problem）:根据下面的方式优化，找到最好的

二、几种主流的Adaptaion方法

2.1 Probing

probing引入了新的模型参数，通常是线性层或者浅的网络层
probing通常用来探究模型得到的representation的意义，比如如果模型的probe能预测词性，那么就存储了词性信息。
在adaptation中，通过模型最后一层的输出来训练probe（prediction head）
主要应用于encoder---only模型，但也能用骨decoder-only模型

2.2 Fine-tuning

使用全部的预训练参数作为初始化：
- 参数包括模型参数和prediction head参数
- optimizer sate和预训练无关,会在训练过程中更新丢弃
- 学习率至少比预训练少一个数量级(例如：预训练阶段的学习率是1*e-3,那么fine-tuning阶段的学习率是1*e-4)，并且时间短。
根据不同的下游任务都要存储特殊化的模型，expensive。
通常比probing表现好

2.3 Lightweight Fine-tuning

轻量finetune 目的是提升模型的表现能力，通过一次full fine通用适配下游任务，而不需要针对每个下游任务finetune

2.3.1 常见的三中方法

上一篇：深度学习基础知识

下一篇：windows下git pull超时，ping不通github

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03BongoCat - 跨平台键盘猫动画工具 04【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像（2025最新版）05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06本地部署阿里最新开源的Z-Image 07Linux下V2Ray安装配置指南 08Meta第三代“分割一切”模型——SAM 3本地部署教程：首支持文本提示分割，400万概念、30毫秒响应，检测分割追踪一网打尽 09Labelme从安装到标注：零基础完整指南 10【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连