GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF

GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF

文章目录

  • [GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF](#GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF)
    • [Pretraining 预训练阶段](#Pretraining 预训练阶段)
    • [Supervised FineTuning (SFT)监督微调阶段](#Supervised FineTuning (SFT)监督微调阶段)
    • [Reward Modeling 奖励评价建模](#Reward Modeling 奖励评价建模)
    • [Reinforment Learning RLHF 强化学习](#Reinforment Learning RLHF 强化学习)

大模型常遇到一些概念性的问题,比如: 什么预训练?什么是pretraining?什么是Base model,什么是SFT model?
CPT和ChatGPT是一样的吗?

以GPT为例,LLM训练流程分为4个阶段:预训练,监督微调训练,奖励评价训练,强化学习。分别生成预训练模型(Base model,基础模型),如GPT3,GPT4;监督精调模型SFT模型,RM奖励评价模型,和最后的生成模型,如ChatGPT。

Andrej Karpathy的这张总结的很好,下面以此作为阐述。

Pretraining 预训练阶段

预训练阶段通过互联网的海量数据,训练一个算法基本原型,获得自然语言隐含的大量通用特征。可以理解第一步是粗调,相当于从粗矿中炼矿,从原油中炼油。

训练数据:
来自互联网的大量文本数据,具有低质量,数量巨大特点,TB级别。以LLaMA模型为例,训练数据共1.4T tokens。 数据来源种类也多样化,绝大部分是互联网抓取公开的数据,还有github,wikipedia,arXiv等专业网站数据。
模型类型:
自然语言建模,生成模型,预测下一个token(算法的处理单位,可以是词语,符号,短语,句子等)
训练结果:
base model 基本模型
计算资源:
算力需要很大,1000块以上的GPU;
训练周期:
训练时间耗费几个月,占据训练时间的99%
代表模型:
预训练模型代表,如GPT,LLaMA等等

Supervised FineTuning (SFT)监督微调阶段

预训练的训练数据良莠不齐,直接用到业务场景效果不是很好,接下来需要对模型进行精调。因此训练数据中,问题覆盖应该具有多样性,而且问题可能有很多种回答。也可以用辅助模型的最佳的回应作为引导标注,满足监督训练的条件。

训练数据:
训练数据需要人工标注,人工编写的问题和回答,形成问答对。数据质量高,但数量少。在10~100K量级。
模型类型:
自然语言建模,预测下一个token。基于base model建模的,生成SFT 模型。
训练结果:
SFT model SFT精调模型
计算资源:
算力根据模型和场景,1-100块的GPU资源;
训练周期:
训练以天为单位,几天到几十天。

Reward Modeling 奖励评价建模

在监督微调阶段,获得精调的自然语言模型,一个问题有多种回答,到底哪种最符合呢?这就需要建立明确的价值观体系,好坏之分的标准。在标准尺度的基础上,进一步判别不同回答的优劣,根据训练者的价值,筛选和奖励最好的回答。这个阶段的关键是评价。

增加答案的价值观判断,本质上是选择最佳路径,在多种回答中,按分数排序,选择最好的问题答案。

训练数据:
训练数据需要标注,人工编写的问题和答案,形成具有价值观偏好的问答对,要训练模型哪个是好的,哪个是不好的回答。数量质量高,但数量少。在10-1000K的量级。
模型类型:
二值分类评价模型,区分好和不好的回答。基于SFT模型,生成RM模型。
训练结果:
RM模型,奖励评价模型不能单独部署。
计算资源:
算力根据模型和场景,1-100块的GPU资源;
训练周期:
训练以天为单位,几天到几十天。

Reinforment Learning RLHF 强化学习

在SFT和RM模型基础上,用强化学习模型,根据人工编写问题答案对,和奖励评价模型,对SFT精调模型进行强化训练。多种路径中选择最佳路径,多种答案中,选择最大奖励的答案。

训练数据:
训练数据和前面一样需要标注,通过价值观偏好RM模型获得评分。数量质量高,但数量少。在10-100K量级。
模型类型:
强化学习模型,预训练模型一样结果形式,奖励最大的,生成下一个token。
训练结果:
带价值观判断的生成模型,代表模型:如:ChatGPT,Claude等。
计算资源:
算力根据模型和场景,1-100块的GPU资源。
训练周期:
训练以天为单位,几天到几十天。

点个赞 点个赞 点个赞

觉得有用 收藏 收藏 收藏

End


GPT专栏文章:
GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(二)

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(一)

GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案

GPT实战系列-ChatGLM2模型的微调训练参数解读

GPT实战系列-如何用自己数据微调ChatGLM2模型训练

GPT实战系列-ChatGLM2部署Ubuntu+Cuda11+显存24G实战方案

GPT实战系列-Baichuan2本地化部署实战方案

决策引擎专栏:
Falcon构建轻量级的REST API服务

决策引擎-利用Drools实现简单防火墙策略

相关推荐
百度智能云技术站7 小时前
训练周期减半:LoongForge 全链路优化 GR00T N1.6 训练,吞吐提升至 2.3 倍
机器人·llm
波波不语8 小时前
用 Dify 给工程监理公司做报告自动化:一次从"能跑"到"能用"的完整折腾记录。
llm
johnny23310 小时前
大模型基础之评测数据集
llm
lhxcc_fly11 小时前
4.LangChain--Prompt提示词
langchain·llm·prompt
ServBay11 小时前
别管跑分了,2026 本地编程大模型推荐与 GitHub Copilot 免费平替
llm·ai编程·github copilot
韦胖漫谈IT12 小时前
大模型到底是什么:用最朴素的话讲清楚
llm
格桑阿sir13 小时前
14-大模型智能体开发工程师:ReAct推理-行动框架
ai·大模型·llm·agent·react·智能体·推理模型
程序员三明治13 小时前
【AI】RAG 数据分块(Chunk)策略与实践
java·人工智能·后端·ai·大模型·llm·rag
呆呆敲代码的小Y14 小时前
【最新Codex教程】 | 安装、入门和快速使用,适合新手
人工智能·gpt·ai·llm·openai·agent·codex
Lei活在当下14 小时前
【AI手记系列】2026.6.1 一周AI小结(草稿)
llm·openai