base model - base model技术,学习,经验文章

Alex_StarSky

3 年前

GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHF以GPT为例，LLM训练流程分为4个阶段：预训练，监督微调训练，奖励评价训练，强化学习。分别生成预训练模型（Base model，基础模型），如GPT3，GPT4；监督精调模型SFT模型，RM奖励评价模型，和最后的生成模型，如ChatGPT。