DeepSeekMath的理解5——预训练中的经验教训和强化学习的见解

文章目录

一、前言
二、DeepSeekMath
[5. 讨论](#5. 讨论)
- [5.1. 预训练中的经验教训](#5.1. 预训练中的经验教训)
- [5.1.1. 代码训练有益于数学推理](#5.1.1. 代码训练有益于数学推理)
- [5.1.2. ArXiv论文似乎在提高数学推理能力方面效果不佳](#5.1.2. ArXiv论文似乎在提高数学推理能力方面效果不佳)
- 问题1：解释一下
- 核心总结
- 涉及的数据集详解
- - [一、评估模型数学/推理能力的 Benchmark（考试卷）](#一、评估模型数学/推理能力的 Benchmark（考试卷）)
  - [二、评估编程能力的 Benchmark](#二、评估编程能力的 Benchmark)
  - 三、训练用的语料库（教材）
- 实验设计通俗解释
- - [实验组 1：代码对数学有帮助吗？](#实验组 1：代码对数学有帮助吗？)
  - [实验组 2：ArXiv 论文有用吗？](#实验组 2：ArXiv 论文有用吗？)
- 一句话总结
- 问题2：解释一下
- 你的类比有道理的部分
- 但你的推论需要修正的地方
- - [1. "学了理论导致实践下降" ≠ 人类意义上的"生疏"](#1. "学了理论导致实践下降" ≠ 人类意义上的"生疏")
  - [2. "混合训练导致理论依赖实践"这个推论过度了](#2. "混合训练导致理论依赖实践"这个推论过度了)
- 更准确的"人类学习"类比
- 真正的启示是什么？
- 一句话总结你的思考
[5.2. 强化学习的见解](#5.2. 强化学习的见解)
- [5.2.1. 迈向统一范式](#5.2.1. 迈向统一范式)
- 问题1：表格解释
- 先认识通用符号
- 逐行拆解
- - [1. SFT（监督微调）](#1. SFT（监督微调）)
  - [2. RFT（拒绝采样微调）](#2. RFT（拒绝采样微调）)
  - [3. DPO（直接偏好优化）](#3. DPO（直接偏好优化）)
  - [4. Online RFT（在线拒绝采样）](#4. Online RFT（在线拒绝采样）)
  - [5. PPO](#5. PPO)
  - [6. GRPO](#6. GRPO)
- 核心对比：看符号变化就能懂
- - [对比1：离线 vs 在线（看 π s f t \pi_{sft} πsft vs π θ \pi_{\theta} πθ）](#对比1：离线 vs 在线（看 π s f t \pi_{sft} πsft vs π θ \pi_{\theta} πθ）)
  - [对比2：单样本 vs 成对 vs 成组（看 o o o 的符号）](#对比2：单样本 vs 成对 vs 成组（看 o o o 的符号）)
  - [对比3：规则 vs 模型（看 Reward Function）](#对比3：规则 vs 模型（看 Reward Function）)
- 一句话总结表格
- 回到原文
- 问题2：解释一下
- 一、作者想解决什么问题？
- 二、统一公式：所有方法的"万能骨架"
- 三、逐个算法拆解：它们是怎么运作的？
- - [1. SFT（监督微调）------"老师手把手教"](#1. SFT（监督微调）——"老师手把手教")
  - [2. RFT（拒绝采样微调）------"自己考试，只保留满分卷"](#2. RFT（拒绝采样微调）——"自己考试，只保留满分卷")
  - [3. DPO（直接偏好优化）------"两两对比，选出更好的"](#3. DPO（直接偏好优化）——"两两对比，选出更好的")
  - [4. Online RFT（在线拒绝采样）------"边考试边进步，实时筛选"](#4. Online RFT（在线拒绝采样）——"边考试边进步，实时筛选")
  - [5. PPO/GRPO------"请个裁判打分，按分给钱"](#5. PPO/GRPO——"请个裁判打分，按分给钱")
- 四、区别与联系：一张图看懂
- - 核心区别矩阵
- 五、统一公式怎么理解？
- 六、作者通过实验表达了什么？
- - [发现1：在线 > 离线（图5）](#发现1：在线 > 离线（图5）)
  - [发现2：差异化奖励 > 统一奖励（图5）](#发现2：差异化奖励 > 统一奖励（图5）)
  - [发现3：细粒度 > 粗粒度](#发现3：细粒度 > 粗粒度)
  - [发现4：迭代 RL 很有效（图6）](#发现4：迭代 RL 很有效（图6）)
- 七、一句话总结作者想表达的
- 问题3：不同算法的运作过程通俗解释
- 总览：公司要培训一个"数学客服"
- [1. SFT（监督微调）------ "发标准答案手册，全文背诵"](#1. SFT（监督微调）—— "发标准答案手册，全文背诵")
- [2. RFT（拒绝采样微调）------ "让老员工出模拟卷，只保留满分答案"](#2. RFT（拒绝采样微调）—— "让老员工出模拟卷，只保留满分答案")
- [3. DPO（直接偏好优化）------ "两本作业放一起，告诉你哪个更好"](#3. DPO（直接偏好优化）—— "两本作业放一起，告诉你哪个更好")
- [4. Online RFT（在线拒绝采样）------ "边学边考，实时更新题库"](#4. Online RFT（在线拒绝采样）—— "边学边考，实时更新题库")
- [5. PPO/GRPO ------ "请个专业裁判，按表现发奖金/扣工资"](#5. PPO/GRPO —— "请个专业裁判，按表现发奖金/扣工资")
- 一张图看懂所有区别
- 核心结论（作者真正想告诉你的）
- 一句话串起所有算法

一、前言

仅供参考，未经实验验证。作者提出了代码训练有助于提升数学推理能力，以及提出了SFT、RFT、DPO、PPO、GRPO统一范式的视角。

二、DeepSeekMath

论文标题： DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

（DeepSeekMath：推动开放语言模型中数学推理的极限）

作者： Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo

机构： DeepSeek-AI（主导）、清华大学、北京大学

发表时间： 2024年2月6日（arXiv:2402.03300）

GitHub： https://github.com/deepseek-ai/DeepSeek-Math

论文地址： https://arxiv.org/pdf/2402.03300

5. 讨论

In this section, we will share our ﬁndings in pre-training and RL experiments.

在本节中，我们将分享我们在预训练和强化学习实验中的发现。

5.1. 预训练中的经验教训

We ﬁrst share our experience in pre-training. Unless otherwise speciﬁed, we will adhere to the training settings outlined in Section 2.2.1. It is worth noting that, when referring to the DeepSeekMath Corpus in this section, we use an 89B-token dataset from the second iteration of the data collection process.

我们首先分享我们在预训练方面的经验。除非另有说明，我们将遵守第2.2.1节中概述的训练设置。值得注意的是，在本节中提到DeepSeekMath语料库时，我们使用的是来自数据收集过程第二次迭代的89B token数据集。

5.1.1. 代码训练有益于数学推理

A popular yet unveriﬁed hypothesis suggests that code training improves reasoning. We attempt to offer a partial response to this, particularly within the mathematical domain: code training improves models' ability to do mathematical reasoning both with and without tool use.

一个流行的但未经证实的假设表明，代码训练可以提高推理能力。我们试图对此提供部分回应，特别是在数学领域：代码训练提高了模型在有和没有工具使用的情况下进行数学推理的能力。

To study how code training affects mathematical reasoning, we experimented with the following two-stage training and one-stage training settings:

为了研究代码训练如何影响数学推理，我们实验了以下两阶段训练和单阶段训练设置：

Two-Stage Training

两阶段训练

Code Training for 400B Tokens → Math Training for 150B Tokens: We train DeepSeek-LLM 1.3B for 400B code tokens followed by 150B math tokens;
先进行400B代码token训练 → 再进行150B数学token训练： 我们先在400B代码token上训练DeepSeek-LLM 1.3B，随后在150B数学token上继续训练；
General Training for 400B Tokens → Math Training for 150B Tokens: As a control experiment, we also experiment with general tokens (sampled from a large-scale general corpus created by DeepSeek-AI) instead of code tokens in the first stage of training, in an attempt to investigate the advantages of code tokens over general tokens in improving mathematical reasoning.
先进行400B通用token训练 → 再进行150B数学token训练： 作为对照实验，我们还将第一阶段训练中的代码token替换为通用token（从DeepSeek-AI构建的大规模通用语料中采样），以探究代码token相比通用token在提升数学推理能力方面的优势。

One-Stage Training

单阶段训练

Math Training for 150B Tokens: We train DeepSeek-LLM 1.3B for 150B math tokens;
仅进行150B数学token训练： 直接在150B数学token上训练DeepSeek-LLM 1.3B；
Training on a mixture of 400B Code Tokens and 150B Math Tokens: Math training following code training degrades coding performance. We investigate whether code tokens, when mixed with math tokens for one-stage training, would still improve mathematical reasoning and also alleviate the problem of catastrophic forgetting.
将400B代码token与150B数学token混合训练： 数学训练接在代码训练之后会导致编程性能下降。我们进一步探究，如果将代码token与数学token混合进行单阶段训练，是否仍能提升数学推理能力，同时缓解灾难性遗忘问题。

Results Table 6 and Table 7 demonstrate the downstream performance under different training settings.

结果表6和表7展示了不同训练设置下的下游任务性能。

Code training beneﬁts program-aided mathematical reasoning, both under the two-stage training and one-stage training settings. As shown in Table 6, under the two-stage training setting, code training alone already signiﬁcantly enhances the ability to solve GSM8K and MATH problems using Python.

代码训练能够辅助数学推理，无论是在两阶段训练还是单阶段训练的设置下。如表6所示，在两阶段训练的设置下，仅进行代码训练就已经显著提升了使用Python解决GSM8K和MATH问题的能力。

Math training in the second stage yields further improvements. Interestingly, under the one-stage training setting, mixing code tokens and math tokens effectively mitigates the issue of catastrophic forgetting that arises from two-stage training, and also synergizes coding (Table 7) and program-aided mathematical reasoning (Table 6).

第二阶段的数学训练带来了进一步的提升。有趣的是，在单阶段训练设置下，混合代码标记和数学标记可以有效地缓解由两阶段训练引起的灾难性遗忘问题，并且还能协同提升编码能力（表 7）和程序辅助数学推理能力（表 6）。

Code training also improves mathematical reasoning without tool use. Under the two-stage training setting, the initial stage of code training already results in moderate enhancements. It also boosts the efﬁciency of the subsequent math training, eventually leading to the best performance.

代码训练也能在不使用工具的情况下提高数学推理能力。在两阶段训练设置下，代码训练的初始阶段已能带来适度的提升。它还能提高后续数学训练的效率，最终带来最佳表现。

However, combining code tokens and math tokens for one-stage training compromises mathematical reasoning without tool use. One conjecture is that DeepSeek-LLM 1.3B, due to its limited scale, lacks the capacity to fully assimilate both code and mathematical data simultaneously.

然而，将代码标记和数学标记结合进行单阶段训练会损害无工具使用的数学推理能力。一种推测是，DeepSeek-LLM 1.3B 由于其规模有限，缺乏同时完全吸收代码和数学数据的能力。

Table 6 Investigation of how code affects mathematical reasoning under different training settings. We experiment with DeepSeek-LLM 1.3B, and evaluate its mathematical reasoning performance without and with tool use via few-shot chain-of-thought prompting and few-shot program-of-thought prompting, respectively.

表6 研究了在不同训练设置下，代码如何影响数学推理。我们使用 DeepSeek-LLM 1.3B 进行实验，并通过少样本思维链提示和少样本程序思维链提示，分别评估其在不使用工具和使用工具情况下的数学推理性能。

Table 7 Investigation of how different settings of code and math training affect model performance of language understanding, reasoning, and coding. We experiment with DeepSeek-LLM 1.3B. We evaluate the models on MMLU and BBH using few-shot chain-of-thought prompting. On HumanEval and MBPP, we conduct zero-shot and few-shot evaluations, respectively.

表 7 研究代码和数学训练的不同设置如何影响语言理解、推理和编码的模型性能。我们使用 DeepSeek-LLM 1.3B 进行实验。我们使用少量样本的思维链提示来评估模型在 MMLU 和 BBH 上的表现。在 HumanEval 和 MBPP 上，我们分别进行零样本和少量样本评估。

5.1.2. ArXiv论文似乎在提高数学推理能力方面效果不佳

ArXiv papers are commonly included as a component of math pre-training data (Azerbayev et al., 2023; Lewkowycz et al., 2022a; Polu and Sutskever, 2020; Wang et al., 2023c). However, detailed analysis regarding their impact on mathematical reasoning has not been extensively conducted. Perhaps counter-intuitively, according to our experiments, arXiv papers seem ineffective in improving mathematical reasoning. We experiment with models of different sizes, including DeepSeek-LLM 1.3B and DeepSeek-Coder-Base-v1.5 7B (Guo et al., 2024), using arXiv corpora that underwent varied processing pipelines:

ArXiv论文通常被作为数学预训练数据的一个组成部分（Azerbayev et al., 2023; Lewkowycz et al., 2022a; Polu and Sutskever, 2020; Wang et al., 2023c）。然而，关于它们对数学推理影响的详细分析尚未得到广泛开展。也许与直觉相反，根据我们的实验，arXiv论文似乎在提高数学推理方面效果不佳。我们使用不同规模的模型进行实验，包括DeepSeek-LLM 1.3B和DeepSeek-Coder-Base-v1.5 7B (Guo et al., 2024)，使用的arXiv语料库经过了不同的处理流程：

MathPile (Wang et al., 2023c): an 8.9B-token corpus developed with cleaning and ﬁltering heuristic rules, over 85% of which are scientiﬁc arXiv papers;
MathPile (Wang et al., 2023c)：一个包含89亿token的语料库，通过清洗和过滤启发式规则开发，其中超过85%是科学arXiv论文；
ArXiv-RedPajama (Computer, 2023): the entirety of arXiv LaTeX ﬁles with preambles, comments, macros, and bibliographies removed, totaling 28.0B tokens.
ArXiv-RedPajama （计算机， $NT0$ 2023）：整个arXiv LaTeX文件，移除了序言、注释、宏和参考文献，总计280亿个token。

Table 8 Effect of math training on different arXiv datasets. Model performance is evaluated with few-shot chain-of-thought prompting.
表 8 数学训练对不同 arXiv 数据集的影响。模型性能通过少样本思维链提示进行评估。

Table 9 Effect of math training on different arXiv corpora, the base model being DeepSeekCoder-Base-v1.5 7B. We evaluate informal-to-formal proving in Isabelle.
表 9 数学训练对不同 arXiv 语料库的影响，基础模型为 DeepSeekCoder-Base-v1.5 7B。我们评估在 Isabelle 中从非正式到正式的证明。

In our experiments, we separately train DeepSeek-LLM 1.3B for 150B tokens and DeepSeekCoder-Base-v1.5 7B for 40B tokens on each arXiv corpus. It seems that arXiv papers are ineffective in improving mathematical reasoning. When trained on a arXiv-only corpus, both models display no notable improvements or even deterioration across various mathematical benchmarks of different complexities employed in this study.

在我们的实验中，我们分别在每个arXiv语料库上训练DeepSeek-LLM 1.3B（150B tokens）和DeepSeekCoder-Base-v1.5 7B（40B tokens）。似乎arXiv论文在提高数学推理能力方面效果不佳。当仅在arXiv语料库上训练时，两种模型在本次研究中采用的不同复杂度的各种数学基准测试上均未显示出显著的改进，甚至出现性能下降。

These benchmarks include quantitative reasoning datasets like GSM8K and MATH (Table 8), multiple-choice challenges like MMLU-STEM (Table 8), and formal mathematics like miniF2F (Table 9).

这些基准测试包括GSM8K和MATH等定量推理数据集（表8)），MMLU-STEM等选择题挑战（表8)），以及miniF2F等形式数学（表9）。

However, this conclusion has its limitations and should be taken with a grain of salt. We have not yet studied:

然而，这个结论有其局限性，应谨慎对待。我们尚未研究：

• The impact of arXiv tokens on speciﬁc math-related tasks not included in this research, such as informalization of theorems which is to convert formal statements or proofs to their informal versions;

• arXiv tokens对特定数学相关任务的影响，如定理的非形式化（即将形式化陈述或证明转换为非形式化版本），未包含在本研究中；

• The effect of arXiv tokens when combined with other types of data;

• arXiv tokens与其他类型数据结合时的影响；

• Whether the beneﬁts of arXiv papers would manifest themselves at a larger model scale.

• arXiv论文的优势是否会在更大的模型规模上显现出来。

Thus, further exploration is required, which we leave for future studies.

因此，需要进一步的探索，我们将其留待未来的研究。

问题1：解释一下

核心总结

这段内容来自 DeepSeekMath 论文的实验发现部分，主要讲了两个反直觉的预训练结论：

代码训练比通用语料更能提升数学能力 ------ 先训代码再训数学，效果比直接训数学或先训通用语料再训数学都要好
ArXiv 论文对数学推理帮助不大 ------ 用大量学术论文做预训练，数学 benchmark 上几乎没提升甚至下降

涉及的数据集详解

一、评估模型数学/推理能力的 Benchmark（考试卷）

数据集	全称/含义	测什么	难度/特点
GSM8K	Grade School Math 8K	小学数学应用题（文字题）	需要多步推理，共 8,000 题
MATH	MATH dataset	中学数学竞赛题（AMC/AIME 级别）	高难度，需要复杂符号推理
MMLU	Massive Multitask Language Understanding	57 个学科的多选题（含人文、社科、STEM 等）	测广博知识，类似多学科高考
MMLU-STEM	MMLU 的 STEM 子集	仅看 MMLU 中的科学、技术、工程、数学部分	专门测理科能力
BBH	Big-Bench Hard	复杂推理任务（逻辑、因果、符号操作等）	23 个高难度任务，测深层推理
miniF2F	mini Formal-to-Formal	形式化数学证明（用 Lean/Isabelle 等定理证明器）	测"严格数学证明"能力，非自然语言
OCW	MIT OpenCourseWare	大学数学课程题目	高等数学、线性代数等
SAT	SAT Math	美国高考数学题	标准化考试级别
GaokaoMathCloze	高考数学完形填空	中国高考数学填空题	中文数学场景
GaokaoMathQA	高考数学问答	中国高考数学解答题	中文数学场景

二、评估编程能力的 Benchmark

数据集	测什么
HumanEval	手写 164 道 Python 编程题，测函数级代码生成能力
MBPP	Mostly Basic Python Problems，数百道 Python 基础编程题

三、训练用的语料库（教材）

语料库	是什么
DeepSeekMath Corpus	DeepSeek 自己收集的数学网页语料，89B tokens
MathPile	清洗后的学术数据集，85%+ 是 arXiv 科学论文，共 8.9B tokens
ArXiv-RedPajama	RedPajama 项目中的 arXiv 部分，去掉了 LaTeX 前言/注释/宏，共 28B tokens
通用语料 (General Corpus)	DeepSeek-AI 构建的大规模通用网页/书籍语料

实验设计通俗解释

论文用 DeepSeek-LLM 1.3B（一个小模型）做了几组对比：

实验组 1：代码对数学有帮助吗？

训练方式	具体操作	结果
两阶段：代码→数学	先学 400B 代码 → 再学 150B 数学	最佳：编程和数学（无论是否用 Python 工具）都强
两阶段：通用→数学	先学 400B 通用语料 → 再学 150B 数学	数学比代码组差
单阶段：纯数学	只学 150B 数学	baseline，无工具数学还行，但编程差
单阶段：代码+数学混合	同时学 400B 代码 + 150B 数学	灾难性遗忘缓解了，编程也保住了，但无工具数学反而受损（模型太小，同时学两门课"消化不良"）

关键发现：代码训练像"思维体操"，不仅提升编程，还提升了数学推理能力。但如果模型太小（1.3B），单阶段混合学习会"贪多嚼不烂"。

实验组 2：ArXiv 论文有用吗？

训练数据	在数学考试上的结果
纯 MathPile（arXiv 论文为主）	GSM8K、MATH、MMLU-STEM 等没提升甚至下降
纯 ArXiv-RedPajama	同样效果不佳

反直觉结论 ：学术论文看起来"很数学"，但里面的内容（定理证明、专业符号、文献综述）对提升模型做中小学/竞赛数学题的能力几乎没有帮助。论文自己也承认这个结论有局限------可能对大模型或特定任务（如定理非形式化）还是有用的。

一句话总结

想提升模型数学能力：先让它学代码，再学数学；别指望喂一堆学术论文就有用，论文里的数学和考试题里的数学是两回事。

问题2：解释一下

所以意思就是先训代码再训数学，代码和数学都有提升，这是不是启示我们先实践再学理论，这样学理论的时候就没有这么懵逼了，但是由于代码是先训的，后面再训数学，学了理论导致实践有所下降，而如果代码和数学混合训练的话，代码那部分遗忘得少了，无工具下的数学又不行了，这是不是启示我们如果同时学理论和实践的话，可能会导致理论学习依赖实践，因为一旦实践给出一个好的结果，那么就不会深入思考里面的推导过程了

你的类比非常有意思，确实能从中得到一些启发，但需要注意边界------模型训练中的"遗忘"和人类学习的"遗忘"机制不同。我来逐层分析：

你的类比有道理的部分

"先实践再学理论" 这个洞察是对的：

代码 = 实践/工具使用：它训练的是"结构化步骤执行"、"变量追踪"、"逻辑链构建"等能力
数学 = 理论/抽象推理：它需要"符号操作"、"定理应用"、"多步规划"等能力

代码先训练确实像是先掌握了一套"操作工具" ，再学数学时，模型可以把数学问题"翻译"成程序思维来解决。DeepSeek 的实验也证实了：代码训练后，程序辅助数学（用 Python 解题） 提升最明显。

但你的推论需要修正的地方

1. "学了理论导致实践下降" ≠ 人类意义上的"生疏"

模型在两阶段训练中的"灾难性遗忘"是参数层面的覆盖：

数学数据的分布和代码数据不同
优化器在最小化数学 loss 时，会调整之前为代码优化的参数
这不是"理论学多了手生了"，而是权重被重写

人类的"手生"可以通过复习快速恢复，但模型的遗忘是参数空间的物理覆盖。

2. "混合训练导致理论依赖实践"这个推论过度了

混合训练时无工具数学下降，不是因为"依赖"或"不深入思考"，而是因为：

1.3B 模型容量太小（论文自己也说了这个推测）
代码和数学是两种不同的数据分布
小模型的参数空间就像一个很小的硬盘，同时存两份大文件会互相挤压
代码 token 占比高（400B vs 150B），挤占了纯数学推理的表征空间

类比到人类学习，更像是：

"一个初中生同时学编程和奥数，时间精力有限，编程练多了，奥数题的手感就少了------不是因为依赖编程，而是因为总容量不够。"

更准确的"人类学习"类比

训练设置	模型现象	人类学习类比
先代码后数学	代码和数学（尤其工具辅助）都强	先学编程建立逻辑思维，再学数学时能用代码验证思路，两边都扎实
先通用语料后数学	数学比代码组差	先泛泛读小说/新闻，再学数学，没有建立结构化思维，效率低
纯数学	无工具数学还行，编程差	只刷奥数题，不会写代码，解题能力强但工具使用弱
代码+数学混合	编程保住了，无工具数学受损	同时学编程和数学，时间被编程占了大头，奥数手感下降

真正的启示是什么？

论文的核心结论对人类学习的启示应该是：

"结构化实践"是抽象思维的脚手架

代码训练之所以有效，是因为它强制模型学习"步骤分解、状态追踪、精确执行"------这些能力可以迁移到数学推理。人类学数学时，先用具体例子/计算工具建立直觉，再抽象成理论，确实更高效。
不要同时追求"广度"和"深度"，除非你有足够的容量

1.3B 小模型混合训练就"消化不良"，但如果换成 7B、70B，可能就能同时学好。人类也一样：基础薄弱时，分阶段专注比"同时开多线"效果更好。
"看起来相关"不等于"真的有用"

ArXiv 论文看起来"很数学"，但对做数学题帮助不大。这启示我们：学习材料的选择要看"能力匹配度"，而不是"主题相关性"。读论文对做高考数学题帮助有限，刷题才是正解。

一句话总结你的思考

你的"先实践后理论"洞察很敏锐，但"混合训练导致依赖"是把人类的认知动机投射到了模型上。模型没有"想走捷径"的意图，它只是太小了，装不下两门课 。真正该关注的是：结构化技能（代码）是抽象推理（数学）的杠杆，但杠杆和重物不能同时往一个太小的筐里塞。

5.2. 强化学习的见解

5.2.1. 迈向统一范式

In this section, we provide a unified paradigm to analyze different training methods, such as SFT, RFT, DPO, PPO, GRPO, and further conduct experiments to explore the factors of the unified paradigm. Generally, the gradient with respect to the parameter θ \theta θ of a training method can be written as:

在本节中，我们提供了一个统一的范式来分析不同的训练方法，例如SFT、RFT、DPO、PPO、GRPO，并进一步进行实验以探索统一范式的各个因素。一般来说，关于训练方法中参数𝜃的梯度可以写成如下形式：

∇ θ J A ( θ ) = E $( q , o ) \sim D$ ⏟ Data Source ( 1 ∣ O ∣ ∑ t = 1 ∣ O ∣ G C A ( q , o , t , π r f ) ⏟ Gradient Coefficient ∇ θ log ⁡ π θ ( o t ∣ q , o < t ) ) . ( 5 ) \nabla_{\theta} \mathcal{J}{\mathcal{A}}(\theta) = \underbrace{\mathbb{E} $(q, o) \\sim \\mathcal{D}$ }{\text{Data Source}} \left( \underbrace{\frac{1}{|\mathcal{O}|} \sum_{t=1}^{|\mathcal{O}|} GC_{\mathcal{A}}(q, o, t, \pi_{rf})}{\text{Gradient Coefficient}} \nabla{\theta} \log \pi_{\theta}(o_t | q, o_{<t}) \right). \quad (5) ∇θJA(θ)=Data Source E $(q,o)\simD$ Gradient Coefficient ∣O∣1t=1∑∣O∣GCA(q,o,t,πrf)∇θlogπθ(ot∣q,o<t) .(5)

There exist three key components: 1) Data Source D \mathcal{D} D , which determines the training data; 2) Reward Function π r f \pi_{rf} πrf , which is the source of the training reward signal; 3) Algorithm A \mathcal{A} A : which processes the training data and the reward signal to the gradient coefficient G C GC GC that determines the magnitude of the penalty or reinforcement for the data. We analyze several representative methods based on such a unified paradigm:

存在三个关键组成部分：1) 数据源 D \mathcal{D} D，它决定了训练数据；2) Reward Function π r f \pi_{rf} πrf，它是训练奖励信号的来源；3) 算法 A \mathcal{A} A：它处理训练数据和奖励信号以生成梯度系数 GC，该系数决定了数据的惩罚或增强的幅度。

We analyze several representative methods based on such a uniﬁed paradigm:

我们基于这一统一范式分析了几种代表性方法：

Supervised Fine-tuning (SFT) : SFT ﬁne-tunes pretrained model on human selected SFT data.
监督式微调（SFT）：SFT在人工选择的SFT数据上对预训练模型进行微调。
Rejection Sampling Fine-tuning (RFT): : RFT further ﬁne-tunes the SFT model on the ﬁltered outputs sampled from the SFT model based on SFT questions. RFT ﬁlters the outputs based on the correctness of their answers.
拒绝采样微调 (RFT)：RFT 基于 SFT 问题，对从 SFT 模型采样的过滤后的输出进一步微调 SFT 模型。RFT 基于答案的正确性来过滤输出。
Direct Preference Optimization (DPO): : DPO further reﬁnes the SFT model by ﬁne-tuning it on augmented outputs sampled from the SFT model, using pair-wise DPO loss.
直接偏好优化（DPO）：DPO通过使用成对DPO损失，在从SFT模型采样的增强输出上对其进行微调，从而进一步改进SFT模型。
Online Rejection Sampling Fine-tuning (Online RFT): : Different from RFT, Online RFT initiates the policy model using the SFT model and reﬁnes it by ﬁne-tuning with the augmented outputs sampled from the real-time policy model.
在线拒绝采样微调（Online RFT）：与RFT不同，Online RFT使用SFT模型初始化策略模型，并通过使用从实时策略模型中采样的增强输出进行微调来改进它。
PPO/GRPO: : PPO/GRPO initializes the policy model using the SFT model and reinforces it with the outputs sampled from the real-time policy model.
PPO/GRPO：PPO/GRPO使用SFT模型初始化策略模型，并使用从实时策略模型中抽样的输出对其进行强化。

We summarize the components of these methods in Table 10. Please refer to Appendix A.1 for a more detailed derivation process.

我们在表10中总结了这些方法的组成部分。更详细的推导过程请参考附录A.1。

Table 10 | The data source and gradient coefficient of different methods. P s f t P_{sft} Psft denotes the data distribution of supervised fine-tuning datasets. π θ s f t \pi_{\theta_{sft}} πθsft and π θ \pi_\theta πθ denote the supervised fine-tuned model and the real-time policy model during the online training process, respectively.

表 10 不同方法的数据来源和梯度系数。 P s f t P_{sft} Psft表示监督微调数据集的数据分布。 π θ s f t \pi_{\theta_{sft}} πθsft和 π θ \pi_\theta πθ分别表示在线训练过程中的监督微调模型和实时策略模型。

问题1：表格解释

这个表格是论文的核心总结表，它用统一的数学语言，把6种训练方法的"三个零件"（数据源、奖励函数、梯度系数）列在一起对比。我来逐个拆解符号和含义。

先认识通用符号

符号	读法	含义
q q q	question	问题/提示词（比如一道数学题）
o o o	output	模型的回答/输出
Q , O Q, O Q,O	大写表示空间	所有可能的问题集合、所有可能的回答集合
∼ \sim ∼	"从......采样"	表示随机抽取
∣ \| ∣	竖线	条件概率，"在......条件下"
P s f t P_{sft} Psft	SFT数据分布	人工标注的SFT数据集的概率分布
π s f t \pi_{sft} πsft	SFT策略模型	训练好的SFT模型（参数固定，不再更新）
π θ \pi_{\theta} πθ	实时策略模型	正在训练中的模型（参数 θ \theta θ实时更新）
o + o^+ o+	正样本/偏好答案	DPO中"更好的那个回答"
o − o^- o−	负样本/厌恶答案	DPO中"更差的那个回答"
{ o i } i = 1 G \{o_i\}_{i=1}^{G} {oi}i=1G	组采样	同一个问题生成G个不同的回答（一组）

逐行拆解

1. SFT（监督微调）

列	内容	含义
Data Source	q , o ∼ P s f t ( Q , O ) q, o \sim P_{sft}(Q, O) q,o∼Psft(Q,O)	问题q和答案o，都是从人工标注的SFT数据集中直接采样
Reward Function	-	没有奖励函数，因为这是监督学习，人工写的答案默认全对
Gradient Coefficient	1	所有token的学习权重都是1，平等地背每一个字

通俗说：公司发了一本《标准话术手册》，小白照着全文背诵。

2. RFT（拒绝采样微调）

列	内容	含义
Data Source	q ∼ P s f t ( Q ) q \sim P_{sft}(Q) q∼Psft(Q), o ∼ π s f t ( O ∣ q ) o \sim \pi_{sft}(O\|q) o∼πsft(O∣q)	问题来自SFT数据集，但答案来自SFT模型自己生成
Reward Function	Rule	用规则判断对错（比如答案是否等于42）
Gradient Coefficient	Equation 10	公式10计算（对的保留，错的扔掉）

关键符号： π s f t \pi_{sft} πsft 表示固定的旧模型（离线采样）。让老员工做题，只保留满分卷。

3. DPO（直接偏好优化）

列	内容	含义
Data Source	q ∼ P s f t ( Q ) q \sim P_{sft}(Q) q∼Psft(Q), o + , o − ∼ π s f t ( O ∣ q ) o^+, o^- \sim \pi_{sft}(O\|q) o+,o−∼πsft(O∣q)	问题来自SFT数据集，从旧模型采样一对答案（一个好、一个差）
Reward Function	Rule	用规则/人工标注判断哪个更好
Gradient Coefficient	Equation 14	公式14计算（对比学习，提升好的、降低差的）

关键符号： o + o^+ o+ 和 o − o^- o− 表示成对比较。不告诉你标准答案，只告诉你A比B好。

4. Online RFT（在线拒绝采样）

列	内容	含义
Data Source	q ∼ P s f t ( Q ) q \sim P_{sft}(Q) q∼Psft(Q), o ∼ π θ ( O ∣ q ) o \sim \pi_{\theta}(O\|q) o∼πθ(O∣q)	问题来自SFT数据集，但答案来自实时模型（正在训练的模型）
Reward Function	Rule	规则判断对错
Gradient Coefficient	Equation 10	和RFT一样（对的保留，错的忽略）

关键符号： π θ \pi_{\theta} πθ（注意下角标是 θ \theta θ不是 s f t sft sft）表示正在训练的实时模型（在线采样）。边学边考，用"今天的自己"出题。

5. PPO

列	内容	含义
Data Source	q ∼ P s f t ( Q ) q \sim P_{sft}(Q) q∼Psft(Q), o ∼ π θ ( O ∣ q ) o \sim \pi_{\theta}(O\|q) o∼πθ(O∣q)	问题来自SFT数据集，答案来自实时模型
Reward Function	Model	奖励模型打分（0-100分）
Gradient Coefficient	Equation 18	公式18计算（按分数高低差异化奖惩）

关键区别：从"Rule（对错）"升级为"Model（打分）"。请了个专业裁判。

6. GRPO

列	内容	含义
Data Source	q ∼ P s f t ( Q ) q \sim P_{sft}(Q) q∼Psft(Q), { o i } i = 1 G ∼ π θ ( O ∣ q ) \{o_i\}{i=1}^{G} \sim \pi{\theta}(O\|q) {oi}i=1G∼πθ(O∣q)	问题来自SFT数据集，从实时模型采样G个输出（一组答案）
Reward Function	Model	奖励模型打分
Gradient Coefficient	Equation 21	公式21计算（组内相对排名 + 步级精细奖惩）

关键符号： { o i } i = 1 G \{o_i\}_{i=1}^{G} {oi}i=1G 表示组采样（Group Sampling）。同一道题让模型做G次，得到G个不同答案，然后组内PK排名。

核心对比：看符号变化就能懂

对比1：离线 vs 在线（看 π s f t \pi_{sft} πsft vs π θ \pi_{\theta} πθ）

方法	答案从哪来	含义
RFT、DPO	π s f t \pi_{sft} πsft	旧模型生成（离线，数据质量天花板固定）
Online RFT、PPO、GRPO	π θ \pi_{\theta} πθ	实时模型生成（在线，越学数据越好）

对比2：单样本 vs 成对 vs 成组（看 o o o 的符号）

方法	输出符号	含义
RFT、Online RFT、PPO	o o o	单个答案
DPO	o + , o − o^+, o^- o+,o−	一对答案（好 vs 差）
GRPO	{ o i } i = 1 G \{o_i\}_{i=1}^{G} {oi}i=1G	一组答案（G个答案一起PK）

对比3：规则 vs 模型（看 Reward Function）

方法	奖励方式	含义
RFT、Online RFT、DPO	Rule	非黑即白（对/错，或A比B好）
PPO、GRPO	Model	连续打分（0-100分，精细区分）

一句话总结表格

第一列（SFT）是人工直接教；第二、三列（RFT/DPO）是旧模型出题；第四、五、六列（Online RFT/PPO/GRPO）是实时模型出题。奖励从"对错判断"升级为"模型打分"，数据从"单个"升级为"成组PK"。

符号变化的规律 = 方法进化的规律 ： π s f t → π θ \pi_{sft} \to \pi_{\theta} πsft→πθ（离线→在线），Rule → Model（粗糙→精细）， o → { o i } i = 1 G o \to \{o_i\}_{i=1}^G o→{oi}i=1G（单样本→组采样）。

回到原文

Observation about Data Source We divide the data source into two categories, online sampling, and ofﬂine sampling. Online sampling denotes that the training data is from the exploration results of the real-time training policy model, while ofﬂine sampling denotes that the training data is from the sampling results of the initial SFT model. RFT and DPO follow the ofﬂine style, while Online RFT and GRPO follow the online style.

关于数据源的观察我们将数据源分为两类：在线采样和离线采样。在线采样表示训练数据来自实时训练策略模型的探索结果，而离线采样表示训练数据来自初始SFT模型的采样结果。RFT和DPO遵循离线风格，而Online RFT和GRPO遵循在线风格。

training data is from the sampling results of the initial SFT model. RFT and DPO follow the ofﬂine style, while Online RFT and GRPO follow the online style.

训练数据来自初始SFT模型的采样结果。RFT和DPO遵循离线风格，而Online RFT和GRPO遵循在线风格。

As shown in Figure 5, we ﬁnd that the Online RFT signiﬁcantly outperforms RFT on two benchmarks. Speciﬁcally, Online RFT is comparable to RFT in the early stage of training but gains an absolute advantage in the later stage, demonstrating the superiority of online training.

如图 5 所示，我们发现在线 RFT 在两个基准测试上的表现显著优于 RFT。具体而言，在线 RFT 在训练早期与 RFT 相当，但在后期获得绝对优势，证明了在线训练的优越性。

Figure 5 | Performance of the DeepSeekMath-Instruct 1.3B model, which was further trained using various methods, on two benchmarks.

图 5 | DeepSeekMath-Instruct 1.3B 模型在两个基准测试上的性能，该模型通过各种方法进行了进一步的训练。

This is intuitive, as in the initial stage, the actor and the SFT model exhibit close resemblance, with the sampled data revealing only minor differences. In the later stage, however, the data sampled from the actor will exhibit more signiﬁcant differences, and real-time data sampling will offer greater advantages.

这似乎是直观的，因为在初始阶段，actor 和 SFT 模型表现出相似性，采样数据仅显示微小差异。然而，在后期阶段，从 actor 采样的将显示出更显著的差异，实时数据采样将提供更大的优势。

Observation about Gradient Coefﬁcient The algorithm processes the reward signal to the gradient coefﬁcient to update the model parameter. We divide the reward function as 'Rule' and 'Model' in our experiments. Rule refers to judging the quality of a response based on the correctness of the answer, and Model denotes that we train a reward model to score each response.

关于梯度系数的观察算法处理梯度系数的奖励信号以更新模型参数。在我们的实验中，我们将奖励函数分为'规则'和'模型'。规则是指根据答案的正确性来判断响应的质量，而模型则表示我们训练一个奖励模型来对每个响应进行评分。

The training data of the reward model is based on the rule judgment. Equations 10 and 21 highlight a key difference between GRPO and Online RFT: GRPO uniquely adjusts its gradient coefﬁcient based on the reward value provided by the reward model.

奖励模型的训练数据基于规则判断。方程 10 和 21 突出了 GRPO 与 Online RFT 之间的关键区别：GRPO 根据奖励模型提供的奖励值独特地调整其梯度系数。

This allows for differential reinforcement and penalization of responses according to their varying magnitudes. In contrast, Online RFT lacks this feature; it does not penalize incorrect responses and uniformly reinforces all responses with correct answers at the same level of intensity.

这使得能够根据响应的不同幅度进行差异化强化和惩罚。相比之下，在线RFT缺乏此功能；它不惩罚不正确的响应，并且以相同强度的水平统一强化所有具有正确答案的响应。

As demonstrated in Figure 5, GRPO surpasses online RFT, thereby highlighting the efﬁciency of altering positive and negative gradient coefﬁcients. In addition, GRPO+PS shows superior performance compared to GRPO+OS, indicating the beneﬁts of using ﬁne-grained, step-aware gradient coefﬁcients. Furthermore, we explore the iterative RL, in our experiments, we conduct two rounds of iteration.

如图 5 所示，GRPO 的性能优于在线 RFT，这凸显了改变正负梯度系数的有效性。此外，GRPO+PS 的性能优于 GRPO+OS，表明使用细粒度、步长感知的梯度系数是有益的。此外，我们还探索了迭代强化学习，在我们的实验中，我们进行了两轮迭代。

As shown in Figure 6, we notice that the iterative RL signiﬁcantly improves the performance, especially at the ﬁrst iteration.

如图 6 所示，我们注意到迭代强化学习显著提高了性能，尤其是在第一次迭代时。

Figure 6 | Performance of iterative reinforcement learning with DeepSeekMath-Instruct 7B on two benchmarks.

图 6 | DeepSeekMath-Instruct 7B 在两个基准测试上进行迭代强化学习的性能。

问题2：解释一下

我来用一个完整的故事把这些串起来，从"为什么要统一"讲到"每个算法怎么工作"，再到"作者想告诉我们什么"。

一、作者想解决什么问题？

当前训练大模型的方法太多了：SFT、RFT、DPO、PPO、GRPO......它们看起来像是完全不同的技术路线，但作者认为它们本质上是同一套框架的不同变体。就像同样是炒菜，有的先放油、有的后放盐，但核心都是"火 + 锅 + 食材"。

作者想表达的是：别再把这些方法当成孤立的黑箱了，它们都可以被拆解成三个模块的组合。

二、统一公式：所有方法的"万能骨架"

作者给出的统一公式是：

∇ θ J A ( θ ) = E ( q , o ) ∼ D ( 1 ∣ O ∣ ∑ t = 1 ∣ O ∣ G C A ( q , o , t , π r f ) ⋅ ∇ θ log ⁡ π θ ( o t ∣ q , o < t ) ) \nabla_{\theta} \mathcal{J}{\mathcal{A}}(\theta) = \mathbb{E}{(q, o) \sim \mathcal{D}} \left( \frac{1}{|\mathcal{O}|} \sum_{t=1}^{|\mathcal{O}|} GC_{\mathcal{A}}(q, o, t, \pi_{rf}) \cdot \nabla_{\theta} \log \pi_{\theta}(o_t | q, o_{<t}) \right) ∇θJA(θ)=E(q,o)∼D ∣O∣1t=1∑∣O∣GCA(q,o,t,πrf)⋅∇θlogπθ(ot∣q,o<t)

这个公式看着吓人，但拆开就是三个零件：

零件	符号	通俗解释	作用
数据源	D \mathcal{D} D	训练数据从哪来？	决定"用什么材料训练"
奖励函数	π r f \pi_{rf} πrf	怎么判断答案好坏？	决定"什么是好答案、什么是坏答案"
梯度系数	G C A GC_{\mathcal{A}} GCA	好/坏答案分别怎么惩罚或奖励？	决定"调整力度有多大、方向朝哪"

而最后的 ∇ θ log ⁡ π θ ( o t ∣ q , o < t ) \nabla_{\theta} \log \pi_{\theta}(o_t | q, o_{<t}) ∇θlogπθ(ot∣q,o<t) 就是标准的策略梯度------"让模型更可能生成这个token"。

核心思想：所有方法，无论叫SFT还是GRPO，最终都是在做同一件事：

从某个地方拿数据 → 判断数据好坏 → 把"好坏"翻译成一个数字（GC）→ 用这个数字去调整模型生成每个token的概率。

三、逐个算法拆解：它们是怎么运作的？

1. SFT（监督微调）------"老师手把手教"

数据源 ：人工写好的标准答案（ ( q , o h u m a n ) ∼ P s f t (q, o_{human}) \sim P_{sft} (q,ohuman)∼Psft）
奖励函数：没有显式奖励，因为人工写的答案默认是100分
梯度系数 ： G C = 1 GC = 1 GC=1（所有token都被平等强化，因为都是"标准答案"）
运作方式：就像老师把正确答案写在黑板上，学生照着背。模型直接学习人类写的文本。

2. RFT（拒绝采样微调）------"自己考试，只保留满分卷"

数据源 ：离线 ------从初始SFT模型采样多个答案
奖励函数：规则判断（答案对不对？）
梯度系数 ：对的答案 G C = 1 GC = 1 GC=1，错的答案直接扔掉（不训练）
运作方式：让SFT模型做同一道题100次，只保留做对的10份答卷，用这10份继续训练。错的答案直接被"拒绝"掉了。

3. DPO（直接偏好优化）------"两两对比，选出更好的"

数据源 ：离线 ------从初始SFT模型采样一对答案（一个偏好、一个厌恶）
奖励函数：隐式的，通过"成对比较"来定义（不需要单独训练奖励模型）
梯度系数：通过Bradley-Terry模型计算，让"好答案"概率提升、"坏答案"概率下降
运作方式：不用告诉模型"正确答案是什么"，只告诉它"A比B好"。模型通过对比学习，自动调整偏好。

4. Online RFT（在线拒绝采样）------"边考试边进步，实时筛选"

数据源 ：在线 ------从实时更新的策略模型（当前正在训练的模型）采样
奖励函数：规则判断（答案对不对？）
梯度系数 ：对的答案 G C = 1 GC = 1 GC=1（统一强化），错的答案 G C = 0 GC = 0 GC=0（不惩罚，只是忽略）
运作方式 ：和RFT类似，但关键区别是数据不是从旧模型采的，而是从"现在的自己"采的。模型每学一点，就重新采样、重新筛选，形成闭环。

5. PPO/GRPO------"请个裁判打分，按分给钱"

数据源 ：在线 ------从实时策略模型采样
奖励函数 ：模型判断------训练一个专门的奖励模型（Reward Model）来给每个答案打分
梯度系数 ：根据奖励模型的分数高低 差异化调整：
- 分数高的答案：大力强化（ G C GC GC 大且正）
- 分数低的答案：大力惩罚（ G C GC GC 负）
- 而且GRPO还会根据**每个步骤（token）**对最终结果的贡献来分配奖励（细粒度）
运作方式 ：像请了个专业裁判给每次回答打分。GRPO比PPO更进一步，它不需要价值网络（critic），而是采样一组答案，用组内相对排名来计算优势，更高效。

四、区别与联系：一张图看懂

复制代码

                    ┌─────────────────────────────────────────┐
                    │           统一框架：数据源 → 奖励 → GC    │
                    └─────────────────────────────────────────┘
                                      │
          ┌───────────────────────────┼───────────────────────────┐
          │                           │                           │
          ▼                           ▼                           ▼
    【数据源】                   【奖励函数】                  【梯度系数】
    离线 vs 在线                  规则 vs 模型                   统一 vs 差异化
          │                           │                           │
    ┌─────┴─────┐               ┌─────┴─────┐               ┌─────┴─────┐
    │           │               │           │               │           │
   离线       在线              规则        模型              统一        差异化
    │           │               │           │               │           │
   SFT       Online          RFT/        GRPO/           RFT/      GRPO/
   RFT       RFT/GRPO        Online      PPO             Online    +PS
   DPO                    RFT(对错)   (分数高低)        RFT(全1)  (步级)

核心区别矩阵

方法	数据从哪来	怎么判断好坏	怎么调整梯度
SFT	人工数据	默认全对	所有token统一强化
RFT	旧模型采样（离线）	规则：对/错	对的统一强化，错的扔掉
DPO	旧模型采样（离线）	成对偏好	对比学习，好升坏降
Online RFT	实时模型采样（在线）	规则：对/错	对的统一强化，错的忽略
PPO/GRPO	实时模型采样（在线）	奖励模型打分	按分数差异化强化/惩罚

五、统一公式怎么理解？

把公式再简化一下：

参数更新 = 数据 × 梯度系数 × 策略梯度 \text{参数更新} = \text{数据} \times \text{梯度系数} \times \text{策略梯度} 参数更新=数据×梯度系数×策略梯度

所有方法的区别，只在于"数据"和"梯度系数"怎么选：

SFT：数据 = 人工写的；GC = 1（无脑抄）
RFT：数据 = 旧模型生成的正确答案；GC = 1（抄正确答案）
Online RFT：数据 = 实时模型生成的正确答案；GC = 1（边做边抄正确答案）
GRPO ：数据 = 实时模型生成的一组答案；GC = 根据奖励分数和组内排名动态计算（精细调节）

关键洞察 ：公式中的 G C A GC_{\mathcal{A}} GCA 是"算法的灵魂"。

RFT 的 GC 是"二极管"：对就+1，错就0
GRPO 的 GC 是"调音台"：根据分数高低，给每个token不同的增益/衰减，甚至精细到每个步骤（step-wise）

六、作者通过实验表达了什么？

发现1：在线 > 离线（图5）

Online RFT 显著优于 RFT

为什么？ 因为模型在训练过程中会变强。如果用旧模型（SFT）采样，数据质量天花板就是SFT的水平；但如果用实时模型采样，越训练生成的数据越好，形成"自我增强循环"。

启示：不要只从"过去的自己"那里学，要边学边让"现在的自己"出题。

发现2：差异化奖励 > 统一奖励（图5）

GRPO > Online RFT

为什么？ Online RFT 对"所有正确答案"一视同仁，都是 G C = 1 GC=1 GC=1。但GRPO会根据奖励模型的分数，给80分的答案和95分的答案不同的学习权重 。同时，GRPO还会惩罚错误答案（负梯度），而Online RFT只是忽略错误答案。

启示：不仅要告诉模型"什么对"，还要告诉它"对到什么程度"，以及"错在哪里、错得多离谱"。

发现3：细粒度 > 粗粒度

GRPO+PS（步级奖励）> GRPO+OS（结果奖励）

为什么？ PS = Process Supervision（过程监督），OS = Outcome Supervision（结果监督）。过程监督意味着**每个推理步骤（token）**都有独立的梯度系数，而不是只在最后给一个总分。

启示：像数学老师批改作业，不仅看最终答案，还要在每一步批注"这步对了"、"这步公式用错了"。

发现4：迭代 RL 很有效（图6）

第一次迭代提升最大

启示：RL不是一次性的，而是可以像"滚雪球"一样多轮迭代：训练好的模型 → 采样更好的数据 → 再训练 → 再采样......

七、一句话总结作者想表达的

所有训练方法本质都是"拿数据 → 判好坏 → 算梯度系数 → 调模型"的统一流程。真正决定效果的不是方法名字，而是三个选择：数据是否来自实时模型（在线 vs 离线）、奖励是否精细（规则对错 vs 模型打分）、调整是否差异化（统一强化 vs 按分奖惩）。其中，"在线 + 奖励模型 + 细粒度梯度"（即GRPO）是当前最优组合。

问题3：不同算法的运作过程通俗解释

我用一个公司培训新员工的故事，把每个算法都变成具体的"培训流程"，你就明白了。

总览：公司要培训一个"数学客服"

假设公司招了一个小白（预训练模型），现在要让他学会回答客户的数学题。不同算法的区别，就是**"培训部门用的教学方法不同"**。

1. SFT（监督微调）------ "发标准答案手册，全文背诵"

场景：公司请了一堆资深客服，把常见问题和标准回答写成了《金牌客服话术手册》。

培训流程：

小白每天的任务就是：翻开手册，把每一道题和对应的标准答案死记硬背
没有考试，没有评分，手册上的内容默认都是100分

特点：

学得快，但只会"背台词"
遇到手册上没写的题，就懵了

类比：就像高中生背《五年高考三年模拟》的解析，背熟了能做题，但未必真懂。

2. RFT（拒绝采样微调）------ "让老员工出模拟卷，只保留满分答案"

场景：公司觉得光背手册不够，想让小白更灵活。于是让**老员工（SFT模型）**出一套模拟题，自己先做100遍。

培训流程：

老员工做100遍同一道题，对了30遍，错了70遍
培训部门把70遍错的直接扔掉（拒绝），只保留30遍对的
小白就对着这30份"满分答卷"继续背诵学习

特点：

比SFT灵活一点，因为答案来自模型自己的"创作"，不是人工写的
但数据还是"老员工"的水平，天花板锁死了
错的答案不惩罚，只是不用

类比：就像让学霸替你刷题，只把做对的题给你看，错题直接撕掉。

3. DPO（直接偏好优化）------ "两本作业放一起，告诉你哪个更好"

场景：公司不告诉小白"标准答案是什么"，而是采用对比教学法。

培训流程：

老员工同一道题写了两个版本的回答：A和B
培训部门说："A比B好，你自己琢磨A好在哪里"
小白通过对比两个答案的差异，自动调整自己"好答案"的标准

特点：

不需要请裁判打分，省了一个"奖励模型"的成本
但只学到了"相对好坏"，不知道"绝对有多好"

类比：就像美食节目不告诉你评分标准，只给你两盘菜，说左边比右边好吃，你自己悟出"好吃"的要素。

4. Online RFT（在线拒绝采样）------ "边学边考，实时更新题库"

场景：这是RFT的升级版，关键区别是出题人变了。

培训流程：

不是让"老员工"出题了，而是让**小白自己（实时模型）**每天做题
小白今天学了新东西，明天就用"今天的自己"来做100遍模拟题
做对的保留，做错的扔掉，继续训练

特点：

小白越学越强，出的"对题"也越来越难、越来越有水平
形成自我增强：学得好 → 采样质量高 → 学得更好
但缺点：对错题只是"扔掉"，不告诉小白"你错在哪了"

类比：就像学生自己整理错题本，但只保留做对的题反复看，错题只是不看了，不分析错因。

5. PPO/GRPO ------ "请个专业裁判，按表现发奖金/扣工资"

场景：这是最高级的培训方法，公司专门请了一个**金牌裁判（奖励模型）**来打分。

培训流程：

小白每天做100道题，裁判给每份答卷打一个具体分数（0-100分）
95分的答案：大力奖励，以后要多往这个方向走
60分的答案：轻微奖励，比平均分好一点点
30分的答案：惩罚，以后要避开这种答法
GRPO更精细 ：裁判不仅看最终分数，还看每一步推理过程，哪一步推导错了就扣哪一步的分

特点：

最精细，有"胡萝卜"也有"大棒"
实时更新（在线采样），数据质量持续提升
但需要训练一个靠谱的裁判（奖励模型），成本高

类比：就像销售团队，每单都有业绩考核。不仅看最终签没签单（结果），还看你每一步跟进、话术、方案（过程），按表现发提成。

一张图看懂所有区别

算法	教材从哪来	怎么判对错	学得好怎么奖	学得差怎么罚
SFT	人类专家写的	默认全对	全部大力学	无（没有错题）
RFT	老员工（旧模型）做的	只看最终对错	对的统一学	错题直接扔掉
DPO	老员工做的两个版本	两两对比	好的提升概率	差的降低概率
Online RFT	小白自己（实时）做的	只看最终对错	对的统一学	错题直接忽略
GRPO	小白自己（实时）做的	裁判打分（0-100）	按分数高低差异化奖励	按分数高低差异化惩罚

核心结论（作者真正想告诉你的）

把上面的故事翻译成"人话"：

1. 别光背书（SFT），要自己出题自己做（RFT/Online）

自己生成的数据比人工写的更贴合模型的实际水平。
2. 出题要用"现在的自己"，不是"一个月前的自己"（Online > Offline）

因为你每天都在进步，昨天的错题今天可能已经会了。
3. 不要只分"对/错"，要打分（GRPO > Online RFT）

60分和90分都是"对"，但90分值得学更多；30分不仅不学，还要主动避开。
4. 批改不要只看最终答案，要看每一步（GRPO+PS > GRPO+OS）

就像数学老师，要在草稿纸的每一步都写批注。

一句话串起所有算法

SFT是"背标准答案"，RFT是"抄满分作业"，DPO是"对比两本作业"，Online RFT是"边学边考只看好题"，GRPO是"请裁判打分并按步奖惩"。

效果排序：GRPO > Online RFT > RFT ≈ DPO > SFT，代价也是递增的。