DataWhale大语言模型-大模型技术基础

什么是大语言模型
- 预训练和后训练之间的对比
- 大模型预训练(Pre-training)
- 大语言模型后训练(Post-Training)
- - [指令微调(Instruction Tuning)](#指令微调(Instruction Tuning))
  - [人类对齐(Human Alignment)](#人类对齐(Human Alignment))
- 扩展定律
涌现能力
- 代表性能力
- - [指令遵循(Instruction Following)](#指令遵循(Instruction Following))
  - [上下文学习(In-context Learning)](#上下文学习(In-context Learning))
  - 逐步推理
涌现能力与扩展定律的关系
参考资料

什么是大语言模型

定义:通常是指具有超大规模参数的预训练语言模型

与传统的语言模型相比,大语言模型的构建过程涉及到更为复杂的训练方法,进而展现了强大的自然语言理解能力和复杂任务求解能力(通过文本生成的形式)

架构:主要作为Transformer解码器的架构
训练:训练的内容包括预训练(base model)和后训练(instruct model)

预训练和后训练之间的对比

大模型预训练(Pre-training)

利用与下游任务无关的大规模数据进行模型参数的初始训练

主要的工作任务可以分成以下步骤:

解码器架构+预测下一个词:这是由于GPT系列模型的出圈,该方法得到了有效的验证,已经成为了主流的大语言模型的技术路径
大量的高质量的数据:为了预训练大语言模型需要进行大规模的文本数据,所以数据的数量,数据质量都是十分关键的

目前预训练的过程考虑各种细节,所以需要研发人员有丰富的训练经验和异常处理的能力,从而避免算力资源的浪费,提高模型预训练的成功几率

大语言模型后训练(Post-Training)

这一步可以理解为将一个泛化能力很强的模型不断去精修某一门技术,达到完成指定任务的能力,这一过程可以理解为大模型的微调过程

目前来讲比较常见的微调技术被称为指令微调SFT

指令微调(Instruction Tuning)

使用输入与输出配对的指令数据对模型进行微调
提升模型通过问答模式 进行任务求解的能力

人类对齐(Human Alignment)

除了要提升任务的解决能力,还需要将大语言模型与人类的期望,需求以及价值观对齐,这对于大模型的部署与应用具有重要的意义

将大语言模型与人类的期望,需求以及价值观对齐
基于人类反馈的强化学习对齐方法(RLHF)

在RLHF算法当中,需要标注人员针对大语言模型所生成的多条输出进行偏好排序 ,并使用偏好数据训练奖励模型,用于判断模型的输出质量

扩展定律

通过扩展参数规模以及数据规模和计算算力,大语言模型的能力会出现显著的提升
扩展定律在本次大模型的浪潮当中起到了至关重要的作用
也就是说通过扩展带来的性能提升通常显著高于通过改进架构以及算法等方面所带来的改进,使得大语言模型的能力超越了小语言模型的能力

KM扩展定律

由OpenAI团队所提出,首次建立了神经语言模型性能与参数规模(N) ,**数据规模(D)和计算算力©**之间的幂律关系

L ( ⋅ ) L(\cdot) L(⋅)用来表示以 n a t nat nat(用来表示以 e e e为底信息量的自然对数)为单位的交叉熵损失,其中 N c , D c , C c N_c,D_c,C_c Nc,Dc,Cc是实验性常数数值,分别对应于非嵌入参数的数量,训练数据数量以及实际的算力开销