#Paper Reading# DeepSeek-R1

论文题目: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

论文发表于: arXiv 2025年1月

论文所属单位: DeepSeek

论文大体内容

本文提出DeepSeek-R1模型，主要是以DeepSeek-V3[4]基座模型的基础上进行优化，提升其推理能力。本文首先提出了DeepSeek-R1-Zero模型，探索仅用RL去提升推理能力，并进而提出DeepSeek-R1，拿到很好的效果。

Motivation

之前的工作都需要较多的监督数据进行SFT，本文尝试把SFT去掉，仅使用RL，探索模型的效果。

Contribution

①本文探索了纯RL的后训练，无需SFT，为后续这领域的发展铺平了道路。

②对大模型进行蒸馏，会比小模型进行RL拿到更好的效果。

①RL算法采用了GRPO（Group Relative Policy Optimization）[1]，这个算法在DeepSeek-Math[2]中首次提出。

②采用rule based的reward model，包括准确性奖励（评估是否回答正确）和格式奖励（思考过程位于<think>和</think>标签之间）。

①优点：推理能力强，且通过RL自己探索出来了。

②缺点：可读性差、语言混合。

①Cold Start：收集CoT的几千个实例用于RL的冷启，实例的可读性通过人工review去保障。

②RL引入语言一致性奖励，计算方式是统计目标语言在CoT中的占比，这样能降低语言混合，提升可读性，但同时也对性能有一些损失。

③使用RST（Rejection Sampling and Supervised Fine-Tunin）进行微调，包括推理数据（600k）和非推理数据（200k）

④评测效果如下图。

参考资料

1\] 无需RL基础理解 PPO 和 GRPO：[https://mp.weixin.qq.com/s/YHoDl99fyNe7MP03BoRc6g](https://mp.weixin.qq.com/s/YHoDl99fyNe7MP03BoRc6g "https://mp.weixin.qq.com/s/YHoDl99fyNe7MP03BoRc6g") \[2\] DeepSeek-Math：[https://blog.csdn.net/John159151/article/details/147675280](https://blog.csdn.net/John159151/article/details/147675280 "https://blog.csdn.net/John159151/article/details/147675280") \[3\] 逐篇讲解DeepSeek关键9篇论文及创新点------"勇敢者的游戏"：[https://www.bilibili.com/video/BV1xuK5eREJi/](https://www.bilibili.com/video/BV1xuK5eREJi/ "https://www.bilibili.com/video/BV1xuK5eREJi/") \[4\] DeepSeek-V3：[https://blog.csdn.net/John159151/article/details/147402251](https://blog.csdn.net/John159151/article/details/147402251 "https://blog.csdn.net/John159151/article/details/147402251") \[5\] 最好的致敬是学习：DeepSeek-R1 赏析：[https://www.youtube.com/watch?v=2qyUi4TD6xA](https://www.youtube.com/watch?v=2qyUi4TD6xA "https://www.youtube.com/watch?v=2qyUi4TD6xA") 以上均为个人见解，因本人水平有限，如发现有所错漏，敬请指出，谢谢！