21、DeepSeekMath论文笔记（GRPO）

DeepSeekMath论文笔记

0、研究背景与目标
1、GRPO结构
- GRPO结构
- PPO知识点
- - [**1. PPO的网络模型结构**](#1. PPO的网络模型结构)
  - [**2. GAE（广义优势估计）原理**](#2. GAE（广义优势估计）原理)
  - - [**1. 优势函数的定义**](#1. 优势函数的定义)
    - 2.GAE（广义优势估计）
2、关键技术与方法
3、核心实验结果
4、结论与未来方向
关键问题与答案
- - - [1. **DeepSeekMath在数据处理上的核心创新点是什么？**](#1. DeepSeekMath在数据处理上的核心创新点是什么？)
    - [2. **GRPO算法相比传统PPO有何优势？**](#2. GRPO算法相比传统PPO有何优势？)
    - [3. **代码预训练对数学推理能力的影响如何？**](#3. 代码预训练对数学推理能力的影响如何？)

0、研究背景与目标

挑战与现状 ：
- 数学推理因结构化和复杂性对语言模型构成挑战，主流闭源模型（如GPT-4、Gemini-Ultra）未开源，而开源模型在MATH等基准测试中性能显著落后。
- 目标：通过数据优化和算法创新，提升开源模型数学推理能力，逼近闭源模型水平。

1、GRPO结构

GRPO结构

图 4 |PPO 和我们的 GRPO 示范。GRPO 放弃了价值模型，而是根据组分数估计基线，从而显著减少了训练资源。

近端策略优化（PPO）（舒尔曼等人，2017年）是一种演员 - 评论家强化学习算法，在大语言模型（LLMs）的强化学习微调阶段得到了广泛应用（欧阳等人，2022年）。具体来说，它通过最大化以下替代目标来优化大语言模型：
J P P O ( θ ) = E $q \sim P ( Q ) , o \sim π θ o l d ( O ∣ q )$ 1 ∣ o ∣ ∑ t = 1 ∣ o ∣ min ⁡ $π θ ( o t ∣ q , o \< t ) π θ o l d ( o t ∣ q , o \< t ) A t , clip ( π θ ( o t ∣ q , o \< t ) π θ o l d ( o t ∣ q , o \< t ) , 1 − ε , 1 + ε ) A t$ （ 1 ） \mathcal{J}{PPO}(\theta)=\mathbb{E}\left $q \\sim P(Q), o \\sim \\pi_{\\theta_{old }}(O \| q)\\right$ \frac{1}{|o|} \sum{t = 1}^{|o|} \min \left $\\frac{\\pi_{\\theta}\\left(o_{t} \| q, o_{\ （1） JPPO(θ)=Eq∼P(Q),o∼πθold(O∣q)∣o∣1t=1∑∣o∣minπθold(ot∣q,o\（1）$

其中， π θ \pi_{\theta} πθ和 π θ o l d \pi_{\theta_{old}} πθold分别是当前策略模型和旧策略模型， q q q和 o o o分别是从问题数据集和旧策略 π θ o l d \pi_{\theta_{old}} πθold中采样得到的问题和输出。 ε \varepsilon ε是PPO中引入的与裁剪相关的超参数，用于稳定训练。 A t A_{t} At是优势值，通过应用广义优势估计（GAE）（舒尔曼等人，2015年）计算得出，该估计基于奖励值 { r ≥ t } \{r_{\geq t}\} {r≥t}和学习到的价值函数 V ψ V_{\psi} Vψ 。因此，在PPO中，价值函数需要与策略模型一起训练。为了减轻奖励模型的过度优化问题，标准做法是在每个令牌的奖励中添加来自参考模型的每个令牌的KL散度惩罚项（欧阳等人，2022年），即：
r t = r φ ( q , o ≤ t ) − β log ⁡ π θ ( o t ∣ q , o < t ) π r e f ( o t ∣ q , o < t ) r_{t}=r_{\varphi}\left(q, o_{\leq t}\right)-\beta \log\frac{\pi_{\theta}\left(o_{t} | q, o_{<t}\right)}{\pi_{ref}\left(o_{t} | q, o_{<t}\right)} rt=rφ(q,o≤t)−βlogπref(ot∣q,o<t)πθ(ot∣q,o<t)

其中， r φ r_{\varphi} rφ是奖励模型， π r e f \pi_{ref} πref是参考模型，通常是初始的监督微调（SFT）模型， β \beta β是KL散度惩罚项的系数。

由于PPO中使用的价值函数通常与策略模型规模相当，这会带来巨大的内存和计算负担。此外，在强化学习训练过程中，价值函数在优势值计算中被用作基线以减少方差。而在大语言模型的环境中，奖励模型通常只给最后一个令牌分配奖励分数，这可能会使精确到每个令牌的价值函数的训练变得复杂。

为了解决这个问题，如图4所示，我们提出了组相对策略优化（GRPO）。它无需像PPO那样进行额外的价值函数近似，而是使用针对同一问题产生的多个采样输出的平均奖励作为基线。更具体地说，对于每个问题 q q q，GRPO从旧策略 π θ o l d \pi_{\theta_{old}} πθold中采样一组输出 { o 1 , o 2 , ⋯ , o G } \{o_{1}, o_{2}, \cdots, o_{G}\} {o1,o2,⋯,oG}，然后通过最大化以下目标来优化策略模型：
J G R P O ( θ ) = E $q \sim P ( Q ) , { o i } i = 1 G \sim π θ o l d ( O ∣ q )$ 1 G ∑ i = 1 G 1 ∣ o i ∣ ∑ t = 1 ∣ o i ∣ { min ⁡ $π θ ( o i , t ∣ q , o i , \< t ) π θ o l d ( o i , t ∣ q , o i , \< t ) A \^ i , t , clip ( π θ ( o i , t ∣ q , o i , \< t ) π θ o l d ( o i , t ∣ q , o i , \< t ) , 1 − ε , 1 + ε ) A \^ i , t$ − β D K L $π θ ∣ ∣ π r e f$ } (3) \begin{aligned} \mathcal{J}{GRPO}(\theta) & =\mathbb{E}\left $q \\sim P(Q),\\left\\{o_{i}\\right\\}_{i = 1}\^{G} \\sim \\pi_{\\theta_{old}}(O \| q)\\right$ \\ & \frac{1}{G} \sum{i = 1}^{G} \frac{1}{|o_{i}|} \sum_{t = 1}^{|o_{i}|}\left\{\min \left $\\frac{\\pi_{\\theta}\\left(o_{i, t} \| q, o_{i,\-\beta \mathbb{D}_{KL}\left\\pi_{\\theta}\|\| \\pi_{ref}\\right\right\} \end{aligned} \tag{3} JGRPO(θ)=Eq∼P(Q),{oi}i=1G∼πθold(O∣q)G1i=1∑G∣oi∣1t=1∑∣oi∣{minπθold(oi,t∣q,oi,\−βDKLπθ∣∣πref}(3)$

其中， ε \varepsilon ε和 β \beta β是超参数， A ^ i , t \hat{A}{i, t} A^i,t是仅基于每组内输出的相对奖励计算得到的优势值，将在以下小节中详细介绍。GRPO利用组相对的方式计算优势值，这与奖励模型的比较性质非常契合，因为奖励模型通常是在同一问题的输出之间的比较数据集上进行训练的。还需注意的是，GRPO不是在奖励中添加KL散度惩罚项，而是通过直接将训练后的策略与参考策略之间的KL散度添加到损失中来进行正则化，避免了 A ^ i , t \hat{A}{i, t} A^i,t计算的复杂化。并且，与公式（2）中使用的KL散度惩罚项不同，我们使用以下无偏估计器（舒尔曼，2020年）来估计KL散度：
D K L $π θ ∥ π r e f$ = π r e f ( o i , r ∣ q , o i , < t ) π θ ( o i , t ∣ q , o i , < t ) − log ⁡ π r e f ( o i , r ∣ q , o i , < t ) π θ ( o i , t ∣ q , o i , < t ) − 1 \mathbb{D}{KL}\left $\\pi_{\\theta} \\\| \\pi_{ref}\\right$ =\frac{\pi{ref}\left(o_{i, r} | q, o_{i,<t}\right)}{\pi_{\theta}\left(o_{i, t} | q, o_{i,<t}\right)}-\log\frac{\pi_{ref}\left(o_{i, r} | q, o_{i,<t}\right)}{\pi_{\theta}\left(o_{i, t} | q, o_{i,<t}\right)}-1 DKL $πθ∥πref$ =πθ(oi,t∣q,oi,<t)πref(oi,r∣q,oi,<t)−logπθ(oi,t∣q,oi,<t)πref(oi,r∣q,oi,<t)−1

该估计值保证为正。

算法流程:

PPO知识点

强化学习全面知识点参考：https://blog.csdn.net/weixin_44986037/article/details/147685319

https://blog.csdn.net/weixin_44986037/category_12959317.html

PPO的网络模型结构（优势估计）
若使用在策略与价值函数之间共享参数的神经网络架构，则需使用一个结合了策略替代项与价值函数误差项的损失函数。

在PPO（Proximal Policy Optimization）算法中，网络模型的数量为两个 ，分别是 Actor网络 和 Critic网络 。而 GAE（Generalized Advantage Estimation） 是一种用于计算优势函数（Advantage Function）的方法，并不引入额外的网络模型。以下是详细说明：

1. PPO的网络模型结构

PPO基于 Actor-Critic 架构，包含以下两个核心网络：

Actor网络（策略网络）

• 功能：生成动作概率分布 π ( a ∣ s ) \pi(a|s) π(a∣s)，指导智能体行为。

• 结构：多层感知机（MLP）或Transformer，输出层为动作空间的概率分布。
- 输入：当前状态 s s s。
- 输出：动作概率分布（离散动作空间）或动作分布参数（连续动作空间，如高斯分布的均值和方差）。
- 作用：决定智能体在特定状态下选择动作的策略（策略优化的核心）。
Critic网络（价值网络）

• 功能：估计状态价值函数 V ( s ) V(s) V(s)，用于计算优势函数 A t A_t At。

• 结构：与Actor类似，但输出层为标量值（状态价值）。
- 输入：当前状态 s s s。
- 输出：状态价值 V ( s ) V(s) V(s)，即从当前状态开始预期的累积回报。
- 作用：评估状态的好坏，辅助Actor网络更新策略（通过优势函数的计算）。
变体与优化

• 共享参数：部分实现中，Actor和Critic共享底层特征提取层以减少参数量。

• GRPO变体：如DeepSeek提出的GRPO算法，去除Critic网络，通过组内奖励归一化简化计算，但标准PPO仍保留双网络结构。
共享编码层 ：

在实际实现中，Actor和Critic网络的底层特征提取层（如卷积层、Transformer层等）可能共享参数，以减少计算量并提高特征复用效率。例如，在图像输入场景中，共享的CNN层可以提取通用的视觉特征，然后分别输出到Actor和Critic的分支。

PPO基于 Actor-Critic 架构 ，A2C网络结构：

参考：https://zhuanlan.zhihu.com/p/450690041

GRPO和PPO网络结构：

图 4 |PPO 和我们的 GRPO 示范。GRPO 放弃了价值模型，而是根据组分数估计基线，从而显著减少了训练资源。

由于PPO中使用的价值函数通常与策略模型规模相当，这会带来巨大的内存和计算负担。此外，在强化学习训练过程中，价值函数在优势值计算中被用作基线以减少方差。而在大语言模型的环境中，奖励模型通常只给最后一个令牌分配奖励分数，这可能会使精确到每个令牌的价值函数的训练变得复杂。

为了解决这个问题，如图4所示，我们提出了组相对策略优化（GRPO）。它无需像PPO那样进行额外的价值函数近似，而是使用针对同一问题产生的多个采样输出的平均奖励作为基线。

2. GAE（广义优势估计）原理

1. 优势函数的定义

优势函数 A ( s , a ) A(s, a) A(s,a) 的数学表达式为：
A π ( s , a ) = Q π ( s , a ) − V π ( s ) A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s) Aπ(s,a)=Qπ(s,a)−Vπ(s)

Q π ( s , a ) Q^\pi(s, a) Qπ(s,a) ：动作值函数，表示在状态 s s s 下执行动作 a a a 后，遵循策略 π \pi π 所能获得的期望累积奖励。
V π ( s ) V^\pi(s) Vπ(s) ：状态值函数，表示在状态 s s s 下，遵循策略 π \pi π 所能获得的期望累积奖励（不指定具体动作）。
意义：若 A ( s , a ) > 0 A(s, a) > 0 A(s,a)>0，说明执行动作 a a a 相比于当前策略的平均表现更优；若 A ( s , a ) < 0 A(s, a) < 0 A(s,a)<0，则说明该动作不如当前策略的平均水平。

2.GAE（广义优势估计）

GAE是PPO中用于估计优势函数的核心技术，通过平衡偏差与方差优化策略梯度更新。其核心结构包括以下要点：

多步优势加权

GAE通过指数衰减加权不同步长的优势估计（如TD残差）构建综合优势值，公式为：
A t GAE = ∑ l = 0 ∞ ( γ λ ) l δ t + l A_t^{\text{GAE}} = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l} AtGAE=l=0∑∞(γλ)lδt+l

其中， δ t = r t + γ V ( s t + 1 ) − V ( s t ) \delta_t = r_t + \gamma V(s_{t+1}) - V(s_t) δt=rt+γV(st+1)−V(st)为时序差分误差。 γ \gamma γ（折扣因子）控制长期回报衰减， λ \lambda λ（GAE参数）调节偏差-方差权衡。
偏差-方差平衡机制

• λ ≈ 0 \lambda \approx 0 λ≈0：退化为单步TD残差（高偏差、低方差）

• λ ≈ 1 \lambda \approx 1 λ≈1：接近蒙特卡洛估计（低偏差、高方差）

通过调节 λ \lambda λ，GAE在两者间取得最优折衷。
与TD-λ的区别

GAE将TD-λ的资格迹思想引入策略梯度框架，直接服务于优势函数计算，而非传统的价值函数更新。

参考：https://blog.csdn.net/animate1/article/details/146100100

2、关键技术与方法

大规模数学语料构建（DeepSeekMath Corpus）：
- 数据来源 ：从Common Crawl中通过迭代筛选获取，以OpenWebMath为种子数据，用fastText分类器识别数学网页，经4轮筛选得到 35.5M网页、120B tokens，含英/中多语言内容，规模是Minerva所用数学数据的7倍、OpenWebMath的9倍。
- 去污染：过滤含基准测试题的文本（10-gram精确匹配），避免数据泄露。
- 质量验证：在8个数学基准测试中，基于该语料训练的模型性能显著优于MathPile、OpenWebMath等现有语料，证明其高质量和多语言优势。
模型训练流程：
- 预训练 ：
  - 基于代码模型 DeepSeek-Coder-Base-v1.5 7B 初始化，训练数据含 56%数学语料、20%代码、10%自然语言 等，总 500B tokens。
  - 基准表现：MATH基准 36.2% （超越Minerva 540B的35%），GSM8K 64.2%。
- 监督微调（SFT） ：
  - 使用 776K数学指令数据 （链思维CoT、程序思维PoT、工具推理），训练后模型在MATH达 46.8%，超越同规模开源模型。
- 强化学习（RL）：Group Relative Policy Optimization (GRPO) ：
  - 创新点：无需独立价值函数，通过组内样本平均奖励估计基线，减少内存消耗，支持过程监督和迭代RL。
  - 效果：MATH准确率提升至 51.7%，GSM8K从82.9%提升至88.2%，CMATH从84.6%提升至88.8%，超越7B-70B开源模型及多数闭源模型（如Inflection-2、Gemini Pro）。

3、核心实验结果

数学推理性能：

基准测试	DeepSeekMath-Base 7B	DeepSeekMath-Instruct 7B	DeepSeekMath-RL 7B	GPT-4	Gemini Ultra
MATH (Top1)	36.2%	46.8%	51.7%	52.9%	53.2%
GSM8K (CoT)	64.2%	82.9%	88.2%	92.0%	94.4%
CMATH (中文)	-	84.6%	88.8%	-	-

关键优势：在不依赖外部工具和投票技术的情况下，成为首个在MATH基准突破50%的开源模型，自一致性方法（64样本）可提升至60.9%。

泛化与代码能力：
- 通用推理 ：MMLU基准得分 54.9% ，BBH 59.5%，均优于同类开源模型。
- 代码任务：HumanEval（零样本）和MBPP（少样本）表现与代码模型DeepSeek-Coder-Base-v1.5相当，证明代码预训练对数学推理的促进作用。

4、结论与未来方向

核心贡献：
- 证明公开网络数据可构建高质量数学语料，小模型（7B）通过优质数据和高效算法可超越大模型（如Minerva 540B）。
- 提出GRPO算法，在减少训练资源的同时显著提升数学推理能力，为RL优化提供统一范式。
- 验证代码预训练对数学推理的积极影响，填补"代码是否提升推理能力"的研究空白。
局限：
- 几何推理和定理证明能力弱于闭源模型，少样本学习能力不足（与GPT-4存在差距）。
- arXiv论文数据对数学推理提升无显著效果，需进一步探索特定任务适配。
未来工作：
- 优化数据筛选流程，构建更全面的数学语料（如几何、定理证明）。
- 探索更高效的RL算法，结合过程监督和迭代优化，提升模型泛化能力。

关键问题与答案

1. DeepSeekMath在数据处理上的核心创新点是什么？

答案：通过 迭代筛选+多语言数据 构建高质量数学语料。以OpenWebMath为种子，用fastText分类器从Common Crawl中筛选数学网页，经4轮迭代获得120B tokens，涵盖英/中多语言内容，规模远超现有数学语料（如OpenWebMath的9倍），且通过严格去污染避免基准测试数据泄露。

2. GRPO算法相比传统PPO有何优势？

答案：GRPO通过 组内相对奖励估计基线 替代独立价值函数，显著减少训练资源消耗。无需额外训练价值模型，直接利用同一问题的多个样本平均奖励计算优势函数，同时支持过程监督（分步奖励）和迭代RL，在MATH基准上比PPO更高效，准确率提升5.9%（46.8%→51.7%）且内存使用更优。

3. 代码预训练对数学推理能力的影响如何？

答案：代码预训练能 显著提升数学推理能力，无论是工具使用（如Python编程解题）还是纯文本推理。实验表明，基于代码模型初始化的DeepSeekMath-Base在GSM8K+Python任务中得分66.9%，远超非代码模型（如Mistral 7B的48.5%），且代码与数学混合训练可缓解灾难性遗忘，证明代码中的逻辑结构和形式化推理对数学任务有迁移优势。