(由于平台稿件格式问题,公式格式不能正确写上;如若读写困难可后台私信我要完整电子版)
DeepSeek-R1 是一款对标 OpenAI 的模型,它的特点是增强了在复杂任务上的推理能力。
DeepSeek-R1能够处理需要多步推理才能解决的逻辑问题,如解谜、高级数学问题或编程挑战。
它不会直接给出答案,而是在回答之前进行思考并生成一长串的思维链,然后给出答案(类
似于人类解决问题时的思考方式)。
DeepSeek-R1 的出现,标志着 DeepSeek 团队走出了一条与 OpenAI 不同的创新之路,并
且取得了令人惊艳的成果。
4.1 预备知识
在深入剖析 DeepSeek-R1 技术之前,有必要掌握一些与训练和推理模型有关的预备知识。
本节只简要介绍这些知识,如果读者想更深入地学习,请参阅相关文献和资料。
4.1.1 思维链
思维链(Chain of Thought,CoT)是一种通过展示中间推理步骤来增强模型推理能力的
技术,它在提升大模型解决复杂问题的能力方面发挥着重要作用。
思维链的核心思想是,要求模型在输出答案之前展示中间的推理步骤,以此增强大模型
在算术推理、常识推理和符号推理等方面的能力。
思维链的主要工作原理是把复杂的问题拆解成一系列较为简单的问题,类似于加上了推
导过程和步骤提示,可以显著提升大模型在解决复杂问题时的准确性。例如,在解决数学问
题的表现上,使用思维链提示的模型远超使用传统提示词方法的模型。此外,思维链能帮助
模型在常识推理和符号操作等任务上展现出更好的性能。
一个经典的例子是统计单词里字母的个数(如图 4-1 所示)。如果直接问大模型:"单词
strawberry 中有几个字母 r ?"大模型通常会错误地回答"单词 strawberry 中有两个字母 r"。
但如果提示大模型在回答问题前一步一步地思考,则大模型会生成一系列的思考步骤,最终DeepSeek 核心技术揭秘
得到正确的答案。这些思考的中间步骤,就是思维链。

图 4-1 思维链示例
4.1.2 有监督微调
大模型的训练是依据前面的 token 预测下一个 token,这个过程也叫作预训练(Pre
training)。预训练完成后,往往会进行有监督微调(Supervised Fine-Tuning,SFT),一般会
使用特定任务的数据集(带有标签)进一步训练,目的是让模型更好地适应和完成特定领域
的任务。
为了提高大模型生成思维链的能力,可以使用带有思维链的对话数据集进行有监督微调,
鼓励大模型生成中间推理步骤,从而提高其解决复杂推理问题的能力。当然,SFT 的局限性
也是很明显的。
首先,SFT 严重依赖高质量的标注数据集,这些数据集的构建成本高昂且耗时很长。
其次,单纯的有监督微调不足以使大模型具有良好的推理能力。这是因为 SFT 只能提供
正反馈,即应该输出哪个 token,而无法提供负反馈,即哪些 token 不能被输出。
最后,SFT 不具备向后看的能力,即无法评估模型整体输出的影响,容易导致模型产生
"幻觉"或输出错误。
为了解决 SFT 的问题,一般会在其后再使用强化学习进行训练,这就是 RLHF。图 4-2
所示就是一个典型的 RLHF 训练流程。

4.1.3 强化学习
强化学习的核心思想是让大模型通过与环境的交互来学习最优的行为策略,从而实现模
型性能的提升。强化学习的基本原理如图 4-3 所示,主要由两部分组成:智能体和环境(这
里的智能体和我们平时说的大模型中的 Agent 不同)。在强化学习过程中,智能体与环境不
断交互。智能体在环境中获取某个状态(State)后,会根据该状态输出一个动作(Action),
也称为决策(Decision)。动作会在环境中执行,环境会根据智能体采取的动作,给出下一个
状态,以及当前动作带来的奖励(Reward)。奖励不仅包括近期奖励,也包括远期奖励。智
能体的训练目标是尽可能多地获取奖励。

图 4-3 强化学习的基本原理
在大模型场景下,大模型就是智能体,环境可以理解为用户提出的问题,动作就是生成
token 的行为,奖励则是用户对生成答案的评价。与有监督微调不同,强化学习通过试错和奖
励信号进行学习。因此,强化学习具有许多有监督微调不具备的优势。
(1)整体反馈与局部反馈
SFT 是针对单个 token 进行反馈训练的。它的目标是让模型在给定输入的情况下,尽量
输出"正确"的答案。这种训练方式比较"短视",原因在于它只关注当前的 token 是否准确,
而不太考虑输出文本的整体效果。
强化学习则是对整个输出文本进行反馈的。它不会纠结于单个 token 是否完美,而是从
整体上判断输出是否符合人类的偏好。它可以通过正反馈(鼓励)和负反馈(惩罚)两种方
式来训练模型。如果输出符合要求,就给予正反馈;如果输出不合理或有错误,就给予负反馈。
这样一来,模型不仅能学会输出正确的答案,还能避免生成错误或不合理的内容。
(2)表达的多样性与敏感性
自然语言是非常灵活的,同一个意思可以用多种方式表达。但由于 SFT 只关注单个
token的准确性,所以很难支持这种多样化的表达方式。这可能会让模型陷入一种"固定模式",
只生成它认为"正确"的答案,而忽略其他可能的合理表达。
强化学习通过整体反馈,鼓励模型生成多样化的表达。同时,它能让模型对微小的变化
更敏感。例如,即使输入有细微的改变,模型也能生成更贴合新输入的输出,而不是机械地
重复之前的答案。
(3)解决"幻觉"问题
在"求知型"场景下,用户只提出问题,模型需要根据自己的知识库来回答问题。如果
模型的知识库中没有相关信息,那么 SFT 可能会"强迫"模型给出一个答案,哪怕这个答案
是错误的或不合理的,这就是所谓的"幻觉"问题。
强化学习训练的模型会考虑整体效果。它会"往后看",判断生成的答案在整体上是否
合理。如果模型认为某个答案整体上不合理,那么它不会被轻易输出,从而减少了"幻觉"
问题的发生。
例如,有一条训练样本为:"上海是中国的首都,这是错的"。
如果只通过 SFT 进行训练,则会生成"上海是中国的首都",这个问题可以通过强化学
习考虑整体效果的特点加以解决。
1.面向过程和面向结果
在强化学习中,奖励分为两种:结果奖励(Outcome Reward Model,ORM)和过程奖励
(Process Reward Model,PRM),如图 4-4 所示。例如,在打麻将的过程中,游戏还未结束,
如果途中的"杠"等可以赢,那么这就是过程奖励。最后的胡牌就是结果奖励。只有最终赢了,
才能获得奖励。

图 4-4 结果奖励和过程奖励
ORM 关注的是最终结果的质量,它为整个响应或任务结果分配一个奖励值。在大模型
中,ORM 通过评估模型输出的最终结果来提供反馈,这个奖励值表明了输出是否符合预期
目标或任务目标,但不会对中间过程进行评价。ORM 的优点在于数据收集和标注的成本较
低,因为它只需要标注最终答案的正确性。然而,ORM 的缺点是它提供的是稀疏奖励仅在
最终结果正确时提供信号,这可能导致模型在复杂的多步推理中"走捷径",如通过错误
步骤得出正确答案。
估计奖励与 ORM 不同,PRM 关注的是生成过程中每步的质量。它为思维链推理的每步提供细粒
度的反馈,从而提升模型的逻辑一致性和可解释性。PRM 的优点在于能够提供更密集的奖励
信号,有助于指导模型在多步任务中的表现,使模型在学习过程中能够更好地理解每步的重
要性。PRM 的缺点是它依赖人工对每个步骤标注的正确性,数据收集难度大,成本较高。同时,
PRM 一般使用奖励模型对过程进行打分,很有可能出现大模型的输出刻意迎合打分模型从而
获取高分的情况,但这个输出本身并不合理。这就是所谓的奖励欺骗(Reward Hacking),
造成这个问题的原因就是模型的过拟合。
2.PPO 算法
近端策略优化(Proximal Policy Optimization,PPO)算法是一种广泛应用于强化学习的
经典算法。PPO 算法通常涉及四个主要模型。
◎策略模型(Policy Model):生成模型回复,也是强化学习最终需要的模型,记
为 。
◎奖励模型(Reward Model
):输出奖励分数来评估回复质量的高低。这个模型一般
是提前训练好的,用于对生成的回复进行打分。
◎价值模型(Value Model):预测生成一个 token 后,该 token 能带来的后续收益。后
续收益是指该 token 后面所有可能产生的内容带来的收益,类似于"三岁看小,七
岁看大"。这个模型也需要训练,记为 value
,用来预测第 个样本产生第 个
token 后,后续有可能带来的收益。
◎参考模型(Reference Model):有监督学习后的模型已经具备大模型的基本能力,我
们使用它的主要目的是避免策略模型出现过于极端的变化。这个模型记为 ,它只 提供前向推理,不参与训练。
PPO 的目标是改进策略模型,使其能够生成质量更高的输出。下面推导 PPO 的训练损失
函数。
首先,评估策略模型 产生第 个训练样本生成第 个 token 时,通过奖励模型得到的分
数,公式如下。

策略模型(Policy Model),生成模型回复,也是强化学习后最终需要的模型,我
们记做 。
奖励模型(Reward Model),输出奖励分数来评估回复质量的好坏。这个模型一
般是提前训练好的,用于对生成的 response 进行打分。
价值模型(Value Model),预测生成一个 token 后,该 token 所能带来的后续收
益,这里的
后续收益是指
该 token 后面所有的可能产生内容带来的收益,就类似
于三岁看小,七岁看大。这个模型也是需要进行训练,我们记为
, \],它用 来预测第 个样本,产生第 个 token 后,后续有可能带来的收益。价值模型也叫 做 critic 模型。 参考模型(Reference Model),SFT 后的模型,这个模型已经具备了大模型的基本 能力,我们使用它主要是帮助 Policy Model 不会出现过于极端的变化。这个模型 记为 ,它只提供前向推理,不参与训练。 PPO 的目标是改进策略模型,使其能够生成更高质量的输出。下面我们推导下 PPO 的 训练损失函数。 首先,我们评估下策略模型 产生第 个训练样本生成第 个 token 时,通过奖励模型 (reward model)得到的分数: \[ , \] = (token\[ , \]\|context) − (token\[ , \]\|context) \< (token\[ , \]\|context) − (token\[ , \]\|context) + score = 如果 (token\[*i* ,*j*\]\|context)越高,说明 生成的 token 越符合 ,我们鼓励这个行 为。而 (token\[i, j\]\|context)越低,奖励越大的目的是鼓励 生成 token 的多样性,因此单个 token 的概率不宜太高。score 则是奖励模型对整体生成的一个打分。 因为我们最终希望的奖励是具有可以评估整体,因此不仅仅是当前生成的 token,还需 要考虑后续所有生成的 token,因此我们用 \[ , \]表示后续所有的分数之和,即 \[ , \] = \[ ,
我们接着计算策略优势分数 [ , ],它表示 batch 中第 个样本生成第 个 token 时所能
获得的优势,这个优势可以简单理解为实际得分减去预测得分,即带来的意外惊喜。
, \] = \[ , \] − \[ ,
PPO 通过最大化以下目标函数来更新策略模型:
reward
reward
reward value
reward
4.3.1 GRPO 算法
1.GRPO 的目的
GRPO 的目的是解决传统强化学习方法在应用于大模型时面临的挑战。
◎对价值模型的依赖:传统的强化学习方法,如近端策略优化(Proximal Policy
Optimization,PPD),需要使用单独的评论家模型(Critic Model)来估计每个响应
的值,不仅增加了内存和计算的需求,而且训练价值模型复杂且容易出错,尤其在
涉及主观评价或细微评价的任务中。
◎计算成本高:强化学习流程通常需要大量的计算资源来迭代评估和优化响应。将这
些方法扩展到大模型时会进一步增加这些成本。
◎可扩展性问题:绝对奖励评估难以适应各种任务,很难在推理领域推广。
GRPO 尝试去掉价值模型,不依赖外部评估者,简化奖励评估过程,从而显著降低计算
开销,使计算速度更快,更适用于大模型。
2.GRPO 的基本原理
GRPO 被视为一种 Actor-Only 的强化学习方法,其主要训练流程和 PPO 没有太大的差别,
只是对价值模型给出的评估得分进行了替换(变成了相对评估),如图 4-9 所示。
策略模型
策略模型
价值模型
可训练
模型
奖励模型
冻结模型
标准化
奖励
参考模型 KL
KL
奖励模型
参考模型
PPO
GRPO
相比于 PPO 中的价值模型给每个 token 打一个静态(不变)的分数,GRPO 的灵感来自
相对评估的思想,也可以理解为赛马------在许多实际应用场景中,我们往往更容易判断一组
事物的相对好坏,而不是给出绝对的价值评估。例如,在评估一组员工的绩效时,经理可能
更容易比较不同员工的产出,而不是给每个员工打一个绝对的分数。GRPO 将相对评估的思
想引入强化学习,通过组内的相对评分来构建基准,完全替代了对价值模型的依赖。具体来讲,
其核心思路是:在同一个问题上生成多条答案,对它们彼此做相对比较,以代替传统 PPO 中
的价值模型。
3.理解 GRPO 目标函数
GRPO最大的改进点就是如何计算优势得分 。因为DeepSeek采用了ORM的奖励机制,
所以无须考虑每个 token 或片段的奖励,样本的所有 token 都使用同一个 ,其原理如图 4-10
所示。
每个 都会被输入待训练的策略模型进行随机采样,让其产生多个答案
,答案经
过奖励模型的打分,得到分值
。最后,将这些分数归一化,得到最终奖励值。归一化
公式如下。
GRPO 目标函数定义了模型如何学习并改进其策略,从而提高生成高质量响应的能力,
公式如下。
上述公式所对应的 GRPO 的计算过程,如图 4-11 所示。
可以看到,GRPO 和 PPO 的主要差异就在于计算方法。另外,GRPO 的奖励得分并没有
通过奖励模型得到,而是直接使用规则计算(包括准确性奖励和格式奖励)得到,从而有效
避免了奖励欺骗问题。
相比于 PPO 算法,GRPO 算法有如下优点。
◎无须训练价值模型:避免了训练大规模价值模型带来的计算开销过大和不稳定问题。
◎降低价值估计方差:相对评估关注组内输出的优劣,而不是绝对价值的大小,减小
了估计方差,提高了训练稳定性。
◎更符合奖励模型的比较特性:奖励模型通常基于比较数据训练,GRPO 的相对评估
方式与之更契合。
◎更适用于序列生成任务的信用分配:即使奖励是稀疏的,GRPO 也能有效地学习。
4.3.2 奖励模型
1.选择 ORM 奖励模型
在训练 DeepSeek-R1-Zero 模型的过程中,DeepSeek 研究团队选择了 ORM,而非 PRM。
这种选择是基于以下考虑的。
◎避免奖励欺骗:如果在强化学习中使用 PRM
作为奖励模型,则奖励模型容易被智
能体利用,导致奖励欺骗。模型可能采取"旁门左道"的策略使奖励最大化,而非
提高推理能力。
◎降低训练复杂度:训练 PRM 需要大量的计算资源和标注数据,增加了训练流程的复
杂度。基于规则的奖励模型无须额外训练,一旦确定规则即可直接应用,简化了训
练流程。
2.奖励机制
DeepSeek-R1-Zero 的奖励系统采用双重奖励机制,通过预定义的规则自动化评估,确保
评估过程的高效和实时。这套系统包含两种类型的奖励:准确性奖励和格式奖励。
准确性奖励用于衡量模型输出结果的准确性,是奖励系统最关键的部分,目的是引导模
型生成准确、可靠的输出结果,对不同的任务类型采用不同的验证方法。
◎数学问题:验证最终答案是否与标准答案一致。
◎代码生成:通过编译器执行模型生成的代码,使用预设的单元测试用例进行多次测
试,判断代码的正确性。
格式奖励是为了提高模型输出的可读性和结构性,方便分析和评估而引入的奖励机制,
目的是鼓励模型生成结构化的输出。例如,输出包含思考过程和最终答案,使其更易于用户
理解和分析。
3.奖励函数
奖励函数由准确性奖励和格式奖励加权求和得出。
4.3.2
奖励模型
1.选择 ORM 奖励模型
在训练 DeepSeek-R1-Zero 过程中,DeepSeek 团队选择了 ORM,而非 PRM。此选择基于
以下考虑:
避免奖励欺骗(Reward Hacking):如果在 RL 中使用 PRM 作为奖励模型,奖励模
型容易被智能体利用,导致奖励欺骗。模型可能采取"旁门左道"的策略以最大
化奖励,而非提升推理能力。
降低训练复杂度:训练 PRM 需要大量计算资源和标注数据,增加了训练流程的复
杂性。而基于规则的奖励系统无须额外
训练
,规则一旦确定即可直接应用,简化
了训练流程。
2.奖励机制
DeepSeek-R1-Zero 的奖励系统采用双重奖励机制,通过预定义的规则进行自动化评
估,确保评估过程的高效性和实时性。这套系统包含两种类型的奖励:准确性奖励和格式
奖励。
准确性奖励是衡量模型输出结果的正确性,是奖励系统中最关键的部分。目的是引导
模型生成准确、可靠的输出结果。对不同的任务类型采用不同的验证方法:
数学问题:验证最终答案是否与标准答案一致。
代码生成:通过编译器执行模型生成的代码,并使用预设的单元测试用例进行多
次测试,判断代码的正确性。
格式奖励是为了提升模型输出的可读性和结构性,方便后续分析和评估而引入的奖励
机制。目的是鼓励模型生成结构化的输出,例如包含思考过程和最终答案,使其更易于理
解和分析。
3.奖励函数
奖励函数由准确性奖励和格式奖励加权求和构成:
( ) =
( ) + ⋅
format effective
( )
其中,有效格式奖励的计算方式如下
format effective
( ) =
( ) 如果 的基础格式符合要求
0
如果 的基础格式不符合要求
格式奖励分为有效格式奖励和基础格式奖励。其中,有效格式奖励的计算方式如下。
1.选择 ORM 奖励模型
在训练 DeepSeek-R1-Zero 过程中,DeepSeek 团队选择了 ORM,而非 PRM。此选择基于
以下考虑:
避免奖励欺骗(Reward Hacking):如果在 RL 中使用 PRM 作为奖励模型,奖励模
型容易被智能体利用,导致奖励欺骗。模型可能采取"旁门左道"的策略以最大
化奖励,而非提升推理能力。
降低训练复杂度:训练 PRM 需要大量计算资源和标注数据,增加了训练流程的复
杂性。而基于规则的奖励系统无须额外训练,规则一旦确定即可直接应用,简化
了训练流程。
2.奖励机制
DeepSeek-R1-Zero 的奖励系统采用双重奖励机制,通过预定义的规则进行自动化评
估,确保评估过程的高效性和实时性。这套系统包含两种类型的奖励:准确性奖励和格式
奖励。
准确性奖励是衡量模型输出结果的正确性,是奖励系统中最关键的部分。目的是引导
模型生成准确、可靠的输出结果。对不同的任务类型采用不同的验证方法:
数学问题:验证最终答案是否与标准答案一致。
代码生成:通过编译器执行模型生成的代码,并使用预设的单元测试用例进行多
次测试,判断代码的正确性。
格式奖励是为了提升模型输出的可读性和结构性,方便后续分析和评估而引入的奖励
机制。目的是鼓励模型生成结构化的输出,例如包含思考过程和最终答案,使其更易于理
解和分析。
3.奖励函数
奖励函数由准确性奖励和格式奖励加权求和构成:
( ) =
( ) + ⋅
format effective
( )
其中,有效格式奖励的计算方式如下
format effective
( ) =
( ) 如果 的基础格式符合要求
0
如果 的基础格式不符合要求
基础基础格式奖励则根据格式规范的符合程度进行分级: 格式奖励则根据格式规范的符合程度进行分级:
( ) =
format full
如果 的格式完全符合规范
format partial
如果 的格式部分符合规范
0
如果 的格式不符合规范
4.奖励评估
奖励评估的基本流程如下:
①准确性评估:评估模型输出的答案是否正确,计算准确性奖励。
②基本格式检查:检查输出的基本格式是否符合预定义要求,例如是否包含必要的标
签 <think> 和 <answer>,以及标签是否正确闭合和嵌套。
③有效格式奖励判断:基本格式不符合,则有效格式奖励为 0。
④基本格式符合:进一步评估格式规范程度,计算基础格式奖励。
⑤最终奖励计算:将准确性奖励和有效格式奖励进行线性加权求和,得到最终奖励。
通过结合准确性奖励和格式奖励,DeepSeek-R1 的奖励系统不仅关注模型输出的正确
性,更重视输出结果的结构化和可读性。这使得模型不仅能够给出正确的答案,还能展现
其思
考过程,使其更像一个具备推理能力的智能体,而不仅仅是一个简单的答案输出机
器。
4.4 DeepSeek-R1
通过 DeepSeek-R1-Zero 版本探索,在取得基础性突破并且发现一些新的问题后,
DeepSeek 团队决定以强化学习为主导,综合应用其他训练手段,开发一个面向所有场景的
推理大模型,也就是 DeepSeek-R1。
因此 DeepSeek-R1 模型的训练较 DeepSeek-R1-Zero 复杂。整个训练流程从 DeepSeek
V3 Base 模型出发,经历了多阶段的训练过程,逐步迭代优化完成。整个训练过程如图 4-
12 所示。
4.奖励评估
奖励评估的基本流程如下。
① 准确性评估:评估模型输出的答案是否正确,计算准确性奖励。
② 基本格式检查:检查输出的基础格式是否符合预定义的要求,如是否包含必要的标签
<think> 和 <answer>,以及标签是否正确地闭合和嵌套。
③ 有效格式奖励判断:若基础格式不符合要求,则有效格式奖励为 0。
④ 判断基础格式是否符合要求:进一步评估格式的规范程度,计算基础格式奖励。
⑤ 最终奖励计算:将准确性奖励和有效格式奖励线性加权求和,得到最终奖励。
通过结合准确性奖励和格式奖励,DeepSeek-R1 模型的奖励系统不仅关注模型输出的正
确性,还重视输出结果的结构化和可读性。这使 DeepSeek-R1 模型不仅能给出正确答案,还
能展现思考过程,更像一个具备推理能力的智能体,而不只是一个简单的答案输出机器。
4.4 DeepSeek-R1 的训练
DeepSeek 研究团队通过对 DeepSeek-R1-Zero 版本的探索,在取得突破并发现一些新的问
题后,决定以强化学习为主导,综合应用其他训练手段,开发一个面向所有场景的推理大模
型------DeepSeek-R1
。
DeepSeek-R1 的训练比 DeepSeek-R1-Zero 复杂。整个训练过程从 DeepSeek-V3-Base 模型
出发,经历了多阶段的训练,逐步迭代优化完成,如图 4-12 所示。DeepSeek 核心技术揭秘
·96·
96
阶段一
① 冷启动:使用少量 <问题, 推理轨迹CoT, 答案> 数据,有监督微调
DeepSeek-V3,使其具备初步的深度思考能力和规范的输出格式。
② 对推理能力进行强化学习后训练。
阶段二
① 使用阶段一的 RL-l 生成更高质量的CoT数据和非推理数据,再
次进行有监督微调,提升模型的通用性。
② 再次进行强化学习训练,增强推理能力。
纯推理强化学习
60万条推理数据 20万条非推理数据
数千条冷启动数据
阶段一
阶段二
DeepSeek-V3-Base
DeepSeek-R1
SFT-1
RL-1
SFT-2
RL-2
图 4-12 DeepSeek-R1 的训练过程
整个训练过程分为两个阶段。阶段一的主要目的是训练一个数据生成器,用于生成 60
万条高质量的推理数据。阶段二的主要目的是使用高质量的推理数据进行训练,得到最终的
DeepSeek-R1 模型。
4.4.1 阶段一训练
1.DeepSeek-R1 的冷启动(SFT-1)
DeepSeek-R1-Zero 用基础模型直接进行强化学习训练,虽然取得了不错的效果,但是在
早期曾出现一些训练不稳定的情况。因此,DeepSeek-R1 在训练时增加了冷启动环节。它如
同引擎的点火器,为后续复杂的强化学习训练过程奠定了坚实的基础。冷启动阶段的对应模
块为 SFT-1。
冷启动阶段的目标明确且关键:利用高质量的 CoT 数据,对 DeepSeek-V3-Base 模型进
行初步微调。首先需要获得高质量的训练数据,方法如下。
① 少样本引导:利用少量高质量的样本,引导 DeepSeek-R1-Zero 模型生成更长、更具
深度和逻辑性的 CoT 数据。加入反思和验证环节,确保答案的质量和推理的正确性。
② 优化 DeepSeek-R1-Zero 的输出:对上一步生成的 CoT 数据进行人工标注和优化,提
升数据的可读性和整体质量。
DeepSeek-R1-Zero 模型的输出存在可读性挑战,如语言混合、缺乏结构化格式等。为了
解决这些问题,针对冷启动数据特别设计了更易读的输出模式,具体做法如下。第 4 章 DeepSeek-R1 技术剖析
97
◎添加摘要:在回复末尾添加精炼的摘要,快速提炼核心结论。
◎过滤不良回复:去除不友好或低质量的回复,确保数据的纯净度。
◎结构化输出格式:采用 | special_token | <reasoning_process> | special_token | <summary>
格式,清晰地呈现推理过程和总结。
通过上述做法,DeepSeek研究团队积累了数千条高质量的冷启动数据,获得了如下两种能力。
◎初步推理:引导模型学习和模仿人类的推理过程,为更复杂的推理打下基础。
◎
良好的文本生成质量:确保模型输出文本的流畅性和自然度,提升用户体验。
有了上述训练数据,对 DeepSeek-V3-Base 进行微调,作为后续强化学习训练的起点。经
过微调训练的模型初步掌握人类的推理模式,并具备生成结构化推理的能力,摆脱了从零开
始探索的困境。
2.推理导向的强化学习(RL-1)
经过冷启动微调后,DeepSeek 研究团队通过强化学习进一步提升模型在推理密集型任务
中的能力,对应的模块为 RL-1。
此阶段的核心在于最大化奖励函数,引导模型学习更有效的推理策略。与 DeepSeek-R1-
Zero 类似,推理导向的强化学习使用 GRPO 作为强化学习算法,通过采样和优化策略提升模
型的性能,这里不再赘述。
但是,研究人员发现训练后的模型在后续的推理过程中存在 CoT 语言混合问题。为了解
决这个问题,DeepSeek 研究团队在奖励函数中引入了语言一致性奖励,并将其与任务奖励结
合,构成总奖励函数。
通过上述步骤,DeepSeek 团队积累了数千条高质量的冷启动数据,为了获得如下两个
能力:
初步推理能力:引导模型学习模仿人类的推理过程,为更复杂的推理打下基础。
良好文本生成质量:确保模型输出文本的流畅性和自然度,提升用户体验。
有了上述训练数据后,对 DeepSeek-V3-Base 进行了微调,作为后续强化学习的坚实起
点。经过
微
调训练的模型初步掌握人类推理模式,并具备生成结构化推理过程的能力,避
免了从零开始探索的困境。
2.推理导向的强化学习(RL-1)
在冷启动微调后,DeepSeek 团队通过强化学习进一步提升模型在推理密集型任务(如
编码、数学、科学和逻辑推理)中的能力,对应的模块为 RL-1。
此阶段的核心在于最大化奖励函数,引导模型学习更有效的推理策略。与 DeepSeek
R1-Zero 类似,推理导向强化学习使用 GRPO(Group Relative Policy Optimization)作为强
化学习算法,通过采样和优化策略来提升模型性能,这里就不赘述了。
但是发现训练完后的模型,在后续的推理过程中存在着 CoT 语言混合问题。为了解决
这个问题,DeepSeek 团队在奖励函数中引入了语言一致性奖励,并将其与任务奖励结合,
构成总奖励函数:
( ) =
( ) + ⋅
lang consistency
( )
总奖励函数是任务奖励和语言一致性奖励的加权和。驱动模型在提升推理准确性的同
时,保持 CoT 输出的
语言一致性。
经过第一阶段的训练,我们得到了一个数据生成器的模型 Model-RL-1。
4.4.2 第二阶段训练
1.拒绝采样
拒绝采样的核心是收集一批高质量数据。首先对 Model-RL-1 中输入 prompt,采样多
个响应(通常为 10-20 个)。通过规则化奖励模型(rule-based reward model)或生成式奖励
模型(generative reward model)评估每个响应的质量,仅保留正确且高质量的响应,过滤
掉语言混杂、逻辑混乱或不符合要求的输出。最终,生成约 60 万条推理相关的训练样本。
总奖励函数的值是任务奖励和语言一致性奖励的加权和,用于驱动模型在提高推理准确
性的同时保持 CoT
输出的语言一致性。
经过阶段一的训练,得到了数据生成器 RL-1。
4.4.2 阶段二训练
1.拒绝采样
拒绝采样的核心是收集一批高质量的数据。首先对 RL-1 输入提示词,采样多个响应DeepSeek 核心技术揭秘
(通常为 10 ~ 20 个)。通过规则化奖励模型(Rule-based Reward Model)或生成式奖励模型
(Generative Reward Model)评估每个响应的质量,仅保留正确且高质量的响应,过滤掉语
言混杂、逻辑混乱或不符合要求的输出。最终,生成了约 60 万条与推理有关的训练数据。
除了推理数据,还引入了约 20 万条非推理数据(如事实问答、自我认知和翻译等)。
这些非推理数据一部分来自 DeepSeek-V3 的 SFT 数据集,另一部分通过提示模型生成。
将推理数据和非推理数据合并,形成了约 80 万条训练数据,用于接下来的强化学习训练。
2.二次 SFT(SFT-2)
使用上一步生成并整合的数据对 DeepSeek-V3-Base 模型进行两轮有监督微调,进一步优
化模型的推理能力和在通用任务中的表现,对应的模块为 SFT-2。
通过迭代精炼数据和重训练模型,期望模型在每轮有监督微调中迭代和学习到质量更高
的数据模式,最终收敛到高质量的输出模型。在迭代过程中,训练数据分布逐步聚焦于高质
量数据,使模型在损失最小化过程中不断提升生成高质量输出的能力。
3.面向所有场景的强化学习(RL-2)
为了进一步对齐人类偏好,DeepSeek 研究团队在上一步结果的基础上,对模型进行了阶
段二的强化学习,即面向所有场景的强化学习,旨在提升模型的有用性和无害性,同时保持
其推理能力,对应的模块为 RL-2。
由于是面向所有场景的,所以这个阶段的强化学习训练的特点是对不同类型的数据使用
不同的奖励方式。
◎针对推理数据,沿用基于规则的奖励模型(与 DeepSeek-R1-Zero 相同)。
◎针对通用数据,使用奖励模型,采用对齐人类偏好的方式训练。
◎对于有用性,仅关注最终结果,以确保评估重点放在模型的响应对用户的实用性与
相关性上,同时尽量减少对底层推理过程的干扰。
◎对于无害性,评估模型的整个响应过程,包括推理过程和最终结果,以识别并缓解
生成过程中可能出现的任何潜在风险、偏见或有害内容。
通过上述训练策略,模型不仅在推理方面表现出色,还能优先考虑有用性和无害性。
98
·98·第 4 章 DeepSeek-R1 技术剖析
99
4.4.3 推理能力的蒸馏
在完成对 DeepSeek-R1 的训练后,为了将 DeepSeek-R1 的强大推理能力迁移到更小的模
型上,DeepSeek 研究团队进行了相关研究。他们发现,仅使用简单的蒸馏(Distillation)技
术也能显著提高小模型的推理能力。具体来说,使用由 DeepSeek-R1 生成的约 80 万条训练数
据,对 Qwen 和 LLaMA 系列模型进行了有监督微调。这些模型涵盖从 15 亿到 700 亿个参数
的多种模型规模,如 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、
Llama-3.1-8B 和 Llama-3.3-70B-Instruct。模型测试对比的结果惊艳,如表 4-1 所示。
经过蒸馏的 Qwen2.5-14B 模型的表现优于 QwQ-32B-Preview,后者是在 DeepSeek-R1 发
布之前最好的开源推理模型。此外,即使是最小的蒸馏模型,也比未针对推理进行优化的标
准闭源模型(如 GPT-4o)的表现好,而 320 亿和 70 亿个参数的蒸馏模型在大多数基准测试
中的性能都超过了 OpenAI o1-mini 模型。
这个实验证明,大参数规模模型的推理模式对提高小模型的推理能力至关重要,即在探
索人工智能的边界方面,依然需要依赖参数规模庞大的模型,同时,可以通过蒸馏等技术将
大参数规模模型的推理能力转移到小模型上。
4.5 小结
DeepSeek-R1-Zero 在训练初期没有人工示范,完全靠自己摸索。就像让小孩自己解谜题,
结果他居然悟出了很多强大的解题技巧!例如,模型学会了反思自己的答案、尝试不同的思
路等,这些都是人类解题时会用到的策略。可以说,经过强化学习,小孩已经变成了有创造
力的数学家。
仅靠自我摸索的 DeepSeek-R1-Zero 也存在明显的问题:它给出的答案有时很难读懂,甚
至会中英文混杂,或者偏离人们习惯的表达方式。这就好比一个钻研技术的极客,虽然思路
很清晰,但是说话让人抓不住重点。
因此,在训练 DeepSeek-R1 时,DeepSeek 研究团队对模型进行了两次额外的调整:第一
次是喂给它一些冷启动的例子,相当于给模型打好基础,让它知道回答时的基本礼仪和清晰
续表第 4 章 DeepSeek-R1 技术剖析
101
度;第二次是在强化学习之后,收集在训练中表现优秀的解题示例,再混合一些人工整理的
题目,重新训练模型,这就像学生借助老师整理的笔记和一些优秀思路来巩固学习。经过这
两轮调整,模型的表达更流畅了,知识面也更广了。对模型进行最后一轮强化学习训练,让
它针对各种类型的问题进行训练,相当于毕业前的全面模拟考试。最终的 DeepSeek-R1 模型,
既有缜密的推理能力,又能用清晰、自然的语言给出答案。
通过这样的流程,DeepSeek-R1 就像一个经历了自学、纠错、再学习、再实战的学生,
已成长为解题高手。
上述过程还揭示了一个少有人注意的基本原则,那就是要让模型自由地思考。在许多 AI
实验中,模型的结构约束越少,则当计算资源增加时,最终性能的上限越高。反之,如果在
早期给模型添加过多的结构约束,则它的最终表现可能会受到限制,失去了更多自主探索的
可能性。在各种训练模型推理能力的范式中,基于结果奖励的强化学习给模型的约束最少。
以结果为导向,用结果来激励------"Don't teach, incentivize."也就是说,不要去"教"模型,
而要"激励"它自主探索。
DeepSeek-R1 的整个训练过程是一次凝聚了 AI 自主学习和复杂推理的飞跃,值得我们反
复学习和思考
(由于平台稿件格式问题,公式格式不能正确写上;如若读写困难可后台私信我要完整电子版)
对机器学习感兴趣的读者可以去主页关注我;本人著有《速通深度学习》以及《速通机器学习数学基础》二书,想要完整版电子档可以后台私信我;实体版已出版在JD上有售,有兴趣的同学可以自行搜索了解