大模型原理剖析——拆解预训练、微调、奖励建模与强化学习四阶段（以ChatGPT构建流程为例）

前言

大语言模型（如ChatGPT）的"智能"并非一蹴而就，而是通过分阶段的精细化训练逐步实现的。本文基于课程内容，拆解ChatGPT的四阶段构建流程，解析每个环节的核心逻辑与技术细节。

这是大模型的基础能力奠基阶段，核心是让模型学习语言规律与世界知识。

核心思路：利用文本的前k个词（token），预测第k+1个词，实现"自监督学习"（无需人工标注标签）。
训练数据：覆盖互联网网页、维基百科、书籍、GitHub代码、论文等多源语料，总量达数千亿至数万亿单词，确保内容的多样性与知识覆盖度。
训练目标 ：最大化预测概率，数学表达为： <math xmlns="http://www.w3.org/1998/Math/MathML"> Max ∑ i log ⁡ P ( u i ∣ u i − k , . . . , u i − 1 ; θ ) \text{Max} \sum_{i} \log P(u_i|u_{i-k}, ..., u_{i-1}; \theta) </math>Max∑ilogP(ui∣ui−k,...,ui−1;θ) （其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> u i u_i </math>ui是语料中的词， <math xmlns="http://www.w3.org/1998/Math/MathML"> θ \theta </math>θ是模型参数）
输出与资源 ：得到"基础模型"，需1000+GPU/月的训练资源。

预训练模型能"续写文本"，但还不懂"指令"；这一阶段的目标是让模型理解人类需求。

这一阶段的核心是构建"文本质量评估体系"，为后续优化提供"奖励信号"。

这是ChatGPT的最终优化阶段，核心是用奖励信号让模型持续迭代。

核心流程 ：
1. 输入十万级用户指令，让SFT模型生成输出；
2. 用RM模型对输出打分（即"奖励"）；
3. 根据奖励结果调整SFT模型的参数，让模型更倾向于生成高分内容。
最终输出：经过此阶段训练后，得到最终的ChatGPT模型。
资源需求 ：需1-100GPU/天的训练资源。

ChatGPT的训练是一个"从基础到优化"的递进过程：

各阶段的数据规模、算法类型、计算资源需精准匹配，才能最终实现模型的"智能表现"。