GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF
文章目录
- [GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF](#GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF)
-
- [Pretraining 预训练阶段](#Pretraining 预训练阶段)
- [Supervised FineTuning (SFT)监督微调阶段](#Supervised FineTuning (SFT)监督微调阶段)
- [Reward Modeling 奖励评价建模](#Reward Modeling 奖励评价建模)
- [Reinforment Learning RLHF 强化学习](#Reinforment Learning RLHF 强化学习)
大模型常遇到一些概念性的问题,比如: 什么预训练?什么是pretraining?什么是Base model,什么是SFT model?
CPT和ChatGPT是一样的吗?
以GPT为例,LLM训练流程分为4个阶段:预训练,监督微调训练,奖励评价训练,强化学习。分别生成预训练模型(Base model,基础模型),如GPT3,GPT4;监督精调模型SFT模型,RM奖励评价模型,和最后的生成模型,如ChatGPT。
Andrej Karpathy的这张总结的很好,下面以此作为阐述。
Pretraining 预训练阶段
预训练阶段通过互联网的海量数据,训练一个算法基本原型,获得自然语言隐含的大量通用特征。可以理解第一步是粗调,相当于从粗矿中炼矿,从原油中炼油。
训练数据: |
---|
来自互联网的大量文本数据,具有低质量,数量巨大特点,TB级别。以LLaMA模型为例,训练数据共1.4T tokens。 数据来源种类也多样化,绝大部分是互联网抓取公开的数据,还有github,wikipedia,arXiv等专业网站数据。 |
模型类型: |
自然语言建模,生成模型,预测下一个token(算法的处理单位,可以是词语,符号,短语,句子等) |
训练结果: |
base model 基本模型 |
计算资源: |
算力需要很大,1000块以上的GPU; |
训练周期: |
训练时间耗费几个月,占据训练时间的99% |
代表模型: |
预训练模型代表,如GPT,LLaMA等等 |
Supervised FineTuning (SFT)监督微调阶段
预训练的训练数据良莠不齐,直接用到业务场景效果不是很好,接下来需要对模型进行精调。因此训练数据中,问题覆盖应该具有多样性,而且问题可能有很多种回答。也可以用辅助模型的最佳的回应作为引导标注,满足监督训练的条件。
训练数据: |
---|
训练数据需要人工标注,人工编写的问题和回答,形成问答对。数据质量高,但数量少。在10~100K量级。 |
模型类型: |
自然语言建模,预测下一个token。基于base model建模的,生成SFT 模型。 |
训练结果: |
SFT model SFT精调模型 |
计算资源: |
算力根据模型和场景,1-100块的GPU资源; |
训练周期: |
训练以天为单位,几天到几十天。 |
Reward Modeling 奖励评价建模
在监督微调阶段,获得精调的自然语言模型,一个问题有多种回答,到底哪种最符合呢?这就需要建立明确的价值观体系,好坏之分的标准。在标准尺度的基础上,进一步判别不同回答的优劣,根据训练者的价值,筛选和奖励最好的回答。这个阶段的关键是评价。
增加答案的价值观判断,本质上是选择最佳路径,在多种回答中,按分数排序,选择最好的问题答案。
训练数据: |
---|
训练数据需要标注,人工编写的问题和答案,形成具有价值观偏好的问答对,要训练模型哪个是好的,哪个是不好的回答。数量质量高,但数量少。在10-1000K的量级。 |
模型类型: |
二值分类评价模型,区分好和不好的回答。基于SFT模型,生成RM模型。 |
训练结果: |
RM模型,奖励评价模型不能单独部署。 |
计算资源: |
算力根据模型和场景,1-100块的GPU资源; |
训练周期: |
训练以天为单位,几天到几十天。 |
Reinforment Learning RLHF 强化学习
在SFT和RM模型基础上,用强化学习模型,根据人工编写问题答案对,和奖励评价模型,对SFT精调模型进行强化训练。多种路径中选择最佳路径,多种答案中,选择最大奖励的答案。
训练数据: |
---|
训练数据和前面一样需要标注,通过价值观偏好RM模型获得评分。数量质量高,但数量少。在10-100K量级。 |
模型类型: |
强化学习模型,预训练模型一样结果形式,奖励最大的,生成下一个token。 |
训练结果: |
带价值观判断的生成模型,代表模型:如:ChatGPT,Claude等。 |
计算资源: |
算力根据模型和场景,1-100块的GPU资源。 |
训练周期: |
训练以天为单位,几天到几十天。 |
点个赞 点个赞 点个赞
觉得有用 收藏 收藏 收藏
End
GPT专栏文章:
GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF
GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(二)
GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(一)
GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案
GPT实战系列-ChatGLM2部署Ubuntu+Cuda11+显存24G实战方案
决策引擎专栏:
Falcon构建轻量级的REST API服务