技术栈

gpt训练流程

Alex_StarSky
2 年前
llm·sft·rlhf·大模型训练·base model·pretraining·gpt训练流程
GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF以GPT为例,LLM训练流程分为4个阶段:预训练,监督微调训练,奖励评价训练,强化学习。分别生成预训练模型(Base model,基础模型),如GPT3,GPT4;监督精调模型SFT模型,RM奖励评价模型,和最后的生成模型,如ChatGPT。