datawhale 大模型学习 第六章-大模型之Adaptation(未完)

一、为什么需要Adaptation

1.1 简介

从语言模型的训练方式来说,例如GPT-3,训练语料通常是海量的,各种领域的,不针对任何特定任务的文本信息。

这种方法的优点在于模型具有广泛的适用性,但也带来了一些挑战。比如下游任务的多样性,不同的下游任务与语言模型的预训练方式可以非常不同:

  • 格式不同 :BERT训练过程中使用了MASK标记,而许多下游任务可能并不使用这些标记。
    自然语言推理任务(NLI)涉及两个句子的比较以产生单一的二进制输出
  • 主题变化:专业领域的时候,需要的文本或者话术都需要集中在专业领域。
  • **时间转变:**下游任务中出现了预训练中没有出现过的knowledge。原因有:1. 训练时多数据集已经和预测数据集不同。2. 下游任务数据集不能公开使用

1.2 大模型Adaptation训练一般流程

  1. 准备一个预训练大模型(pre-trained LM) :适配阶段的开始,我们已经有了一个预训练的语言模型,用参数来表示
  2. 下游任务数据集(downstream task dataset) :下游任务的训练集。例如文本分类任务,由输入x和输出y组成:
  3. 适配参数(Adaptation Parameters) :为了使得预训练大模型(LM)适配下游任务,需要定义参数,调整参数以后使得大模型在下游任务上面表现更好
  4. 任务损失函数(Task Loss Function):损失函数 ℓtask 来衡量模型在下游任务上的表现。例如,交叉熵损失是一种常见的选择,用于衡量模型预测的概率分布与真实分布之间的差异。
  5. 优化问题(Optimization Problem):根据下面的方式优化,找到最好的

二、几种主流的Adaptaion方法

2.1 Probing

  • probing引入了新的模型参数,通常是线性层或者浅的网络层
  • probing通常用来探究模型得到的representation的意义,比如如果 模型的probe能预测词性,那么就存储了词性信息。
  • 在adaptation中,通过模型最后一层的输出来训练probe(prediction head)
  • 主要应用于encoder---only模型,但也能用骨decoder-only模型

2.2 Fine-tuning

  • 使用全部的预训练参数作为初始化:
    • 参数包括模型参数和prediction head参数
    • optimizer sate和预训练无关,会在训练过程中更新丢弃
    • 学习率至少比预训练少一个数量级(例如:预训练阶段的学习率是1*e-3,那么fine-tuning阶段的学习率是1*e-4),并且时间短。
  • 根据不同的下游任务都要存储特殊化的模型,expensive。
  • 通常比probing表现好

2.3 Lightweight Fine-tuning

轻量finetune 目的是提升模型的表现能力,通过一次full fine通用适配下游任务,而不需要针对每个下游任务finetune

2.3.1 常见的三中方法

相关推荐
AIGC科技12 小时前
焕新而来,境由AI生|AIRender升级更名“渲境AI”,重新定义设计渲染效率
人工智能·深度学习·图形渲染
出来吧皮卡丘12 小时前
A2UI:让 AI Agent 自主构建用户界面的新范式
前端·人工智能·aigc
nju_spy12 小时前
深度强化学习 TRPO 置信域策略优化实验(sb3_contrib / 手搓 + CartPole-v1 / Breakout-v5)
人工智能·强化学习·共轭梯度法·策略网络·trpo·sb3_contrib·breakout游戏
程序员欣宸12 小时前
LangChain4j实战之四:集成到spring-boot
java·人工智能·spring boot
cmdyu_12 小时前
告别 LLM 输出的不确定性:深度解析 TypeChat 如何重塑 AI 工程化开发
人工智能
想你依然心痛12 小时前
AI赋能编程语言挑战赛:从Python到Rust,我用AI大模型重塑开发效率
人工智能·python·rust
协同生态12 小时前
天锐绿盾新版注册机【仅用于个人学习,禁止其他用途】
学习
测试人社区-千羽12 小时前
AR/VR应用测试核心要点与实施策略
人工智能·安全·职场和发展·自动驾驶·测试用例·ar·vr
人工智能技术咨询.12 小时前
DNN案例一步步构建深层神经网络
人工智能·神经网络
Cuby!12 小时前
【AFDM与信号处理:论文阅读】仿射频分复用:扩展OFDM以实现场景灵活性和弹性
论文阅读·笔记·学习·信息与通信·信号处理