技术栈
base model
Alex_StarSky
1 年前
llm
·
sft
·
rlhf
·
大模型训练
·
base model
·
pretraining
·
gpt训练流程
GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF
以GPT为例,LLM训练流程分为4个阶段:预训练,监督微调训练,奖励评价训练,强化学习。分别生成预训练模型(Base model,基础模型),如GPT3,GPT4;监督精调模型SFT模型,RM奖励评价模型,和最后的生成模型,如ChatGPT。