DeepSeek-R1相关论文解读

**另：**数学推理论文篇：DeepSeekMath

都使用了RL强化学习中的GROP，但是R1还使用了SFT，进行了多阶段训练。

SFT是给模型一些正确例子：情况1 + answer，情况2 + answer，在模型学会在什么情况下回答什么。

没教的情况，模型就不一定知道该做什么，它会找到SFT数据类似的情况模仿，模型可对可错。即SFT提供的都是正反馈，无法提供负反馈。

SFT之后的模型，本质提搞的是某些token在某些情况下的概率，那么存在提高Prob(E｜ABCD)的概率，也会顺带提高下 Prob(E｜ACD )的概率。

也就是"我不喜欢->猫"的概率增加的同时， " 我喜欢->猫"的概率也会增加，但是这两个句子明明是相反的句子。SFT只是预测下一个token的概率，显然考虑整个句子的意思。

SFT的反馈粒度是token，RLHF更倾向于考虑整体影响。

理论上RL的上限更高一些，也容易训崩，SFT的上限取决SFT的数据。

因此推理能力的提升以及突破模型的推理能力的上限，需要靠RL。

强化学习初期的不稳定性（因为强化学习，对数据的格式也有奖励，已经SFT的模型会输出稳定的格式，强化学习在格式方向的优化会加快收敛）。

提升模型输出的可读性（用规范的冷启动的数据SFT base model之后，模型的输出也会按照特定的格式来，后续强化学习的采样过程，也是按照特定的格式来，强化学习之后的模型也是按照特定的格式输出，便于后期处理）

Stage1：

为了生成更好推理数据。先训练了一个用于生成高质量推理数据的model （训练过程是SFT+RL），后使用这个model生成数据，并进行过滤（拒绝采样），最终得到精度更高的推理数据。

Stage2：

更高的推理数据混合非推理的数据是为了克服模型经过推理数据调整参数后产生的"再难遗忘"，导致其它非推理类任务效果变差。

DeepSeek-R1-Zero 学会了重新评估和反思 。它突显了强化学习的力量和美妙之处：不需要明确地教模型如何解决问题，而是通过提供正确的激励，让它自主地发展出高级的解决问题策略。

主流RLHF方向分为两大路线：

On policy： 让模型自己做生成，根据模型生成结果的好坏来打分，用于指导模型进行更新。
- 每次训练都基于自己的生成模型Actor，通过教练Off policy反馈奖励；
- 优势是效率高，但是训练后的模型能力可能不够；
Off policy： 模型不需要亲自输出答案，根据给定的「好坏样本」来进行模拟学习。
- 基于现有标注情况进行分析，存在训练样本可能与模型不匹配的问题；
- 可能达到模型能力上限，问题是效率低。

Critic 是和 Actor 一起训练的。

Reward Model：用于给出最终分数的模型。

Reference Model ：目的是为了让 actor 不要训练偏离太远**。**

4个模型中，Actor生成文本，Critic评估预期收益，两者配合优化策略；Reward提供即时反馈，Reference模型则通过KL散度约束生成内容的稳定性。

**Group Relative Policy Optimization：**应用于LLMs，在复杂任务（如数学推理和代码生成）表现的很好。

核心思想： 通过组内相对奖励优化模型，而不是传统的批评critic模型。

伪代码如下：

与PPO相对一致，区别在：

没有利用critic model求A，直接暴力n次求均值；只有Policy模型，没有Value模型。

无需额外的价值函数:
- GRPO 使用组内平均奖励作为基线，避免了训练额外的价值函数，从而减少了内存和计算负担
与奖励模型的比较性质对齐:
- GRPO 使用组内相对奖励计算优势函数，这与奖励模型通常在同一问题的不同输出之间进行比较的性质相符。
KL惩罚在损失函数中:
- GRPO 直接将训练策略 θ 和参考策略 πref 之间的 KL 散度添加到损失中，而不是像 PPO 那样在奖励中添加 KL 惩罚项，从而避免了复杂化 A^i,t 的计算。