302.AI 深度拆解 | 大白话聊一聊:Deepseek R1 背后的来龙去脉!

文 | Jomy @302.AI

编 | 南乔River @ShowMeAI

I. 一切的开端

CloseAI 在 24 年发布了 o1,指出了未来 Scaling Law 的方向:增加思考时间来换取更多智能,而不是用更大的模型或更多的训练数据。CloseAI 没告诉任何人具体该怎么做,只是将自己的成果做成了收费产品。

虽然大家都知道了这个宏观方向,但是不知道具体的实现方式,就像只告诉你目的地在东北方向,路线一概不知,所以没有人可以复现 o1 的成功。之前的仿 o1 模型,都在尝试各种方法,虽然都叫 cot(思维链),但是并没有展现出强大的思考能力,离 o1 还差了一大截。估计 CloseAI 打算靠这个独家秘籍作为技术壁垒,发家致富。

II. 大道至简

没想到 2025 年 1 月,突然 Deepseek 发了一个论文,并发布了 R1 系列模型。他们直接给大家揭开了 CloseAI 一直藏着掖着的秘密:如何训练出一个真正有思考能力的模型

正所谓大道至简,Deepseek 发现,想训练出一个有思考能力的模型,其实没有那么多弯弯绕绕,结论很简单:RL ( 强化学习 ) is all you need。 通俗点说,就是告诉机器人目标和结果,让机器自己慢慢领悟就好了,不需要干预太多。

Deepseek 在论文里很明确的写到:什么过程奖励模型,什么蒙特卡洛搜索树这种和过程相关的算法,都是失败的尝试。他们使用了一个新的目标奖励方法,剩下的就让机器自己去学习。

此时历史就像一个循环,当年 AlphaGo 能在围棋下出神之一手,正是因为摆脱了人类的棋谱,纯靠强化学习。而现在 Deepseek 给出了相同的答案,别搞什么 RLHF,别搞什么 SFT,人类别自以为是了,机器是无法通过模仿来超越人类的。

其实之前其他人也不是没走过这条路,毕竟强化学习都算是"古典 AI"了,Deepseek 之所以走通,也是因为他们找到了一个合适的算法(GRPO),才能够让机器在有限的资源下,不断的学习和成长。

(摘选自原论文的 GRPO 算法公式)

III. 原型机

Deepseek 通过让 Deepseek-V3 模型纯强化学习(RL),训练了个模型叫 Deepseek-R1-Zero,其实这玩意比较像一个原型机,用来验证这个概念是正确的。结果也如图片所示,能力超群,经过 8000 步的训练后,模型能力提高了几倍,甚至超越了 o1-0912。但是这个模型放到生产环境,会有很多问题(比如多语言混杂,输出看不懂等),需要再精加工一下,让这个模型变得更用户友好。

(模型能力随着 RL 训练次数的增加,线性上升)

IV. 成熟产品

他们就继续搞了个现在大家熟知的 Deepseek-R1。R1 其实就是在原来的纯强化学习(RL)基础上,加了很多人类的干预(SFT),让输出更加可控,让整个模型更加友好。过程比较复杂,大概就是结合了微调和强化学习,算是传统和创新结合,重新训练了一个生产环境可用的模型:Deepseek-R1。

(R1 的训练步骤图解)

V. 从大到小

但是这玩意本质还是 Deepseek-v3 基于训练的,参数很大,普通机器是跑不起来的,他们又继续搞了一些小模型出来,大大降低部署门槛,甚至做到个人电脑可部署。

但是这个小模型也是有些隐秘门道,小模型本质是基于 R1 的合成数据训练的微调模型 ,并没有经过强化学习训练,所以说本质上他们不算是真正的"思考模型"。而 Deepseek 为什么这么做呢,其实他们论文也写了:他们发现小模型经过强化学习效果并不好,远不如经过思考数据微调的。个人猜测是因为小模型本来智力就比较低,学也学不明白,所以别搞什么思考了,不如照葫芦画瓢,照着大模型思考的模式抄一抄,效果也不错,就像那些抄学霸答案的学渣,总比自己乱答强。

(Deepseek-R1-Zero-Qwen-32B 是经过 RL 训练的小模型,远不如蒸馏模型)

VI. 三个结论

所以 Deepseek 这个研究成果,展示了三个结论:

1. 模型的思考能力的锻炼靠强化学习就可以了,这个阶段人类不要干预(Deepseek-R1-zero)

2. 模型学会思考后,还是需要人类的参与才能让模型学会如何和人类沟通(Deepseek-R1)

3. 小模型就别自己思考了,蒸馏的效果更好。思考能力的增强和原来的模型的能力密切相关(Deepseek-R1-distill)

# VII. 四个推断

这三个结论,把 CloseAI 藏着掖着的商业秘密直接揭露了(有可能 CloseAI 了解得还没 Deepseek 多,who knows),并且我也得出几个推断:

  1. 更大的基础模型可能不是没有意义,而是需要经过强化学习的后训练,才知道提升有多大。这就是新的 Scaling Law。
  2. 小模型可以不用学会思考,越强的思考模型可以蒸馏出越好的小模型,小模型应该很快就会超越现在顶级模型的水平。
  3. 在不同领域通过强化学习训练出强大的专业思考模型,再将思考模型蒸馏出轻量的小模型,再本地化部署,可能会是一个不错的生意。
  4. 真正的思考模型展示了真正的智能,AI 不仅是知识的压缩,而是真的可以学会思考,最终超越人类,AGI 又往前迈出了一步。

VIII. 一些感想

CloseAI 可能早就明白了这个道理,但想通过闭源来获得商业的垄断。可是现实并没有如意,因为在大的科技浪潮面前,没有任何成果是不可复制的,如果不是 Deepseek 发现,我相信迟早都还会有其他的公司发现。但是机会总是留给最强者,Deepseek 实至名归。

虽然 Deepseek 没有开源所有的细节和研究过程,但我相信有了现在的理论基础,业内的人已经开始在这个基础上研发更强大的思考模型了。原来那些参数巨大但表现不佳的模型,可能经过RL的后训练,摇身一变成为强大的思考模型,强大的思考模型又蒸馏出更多强大的小模型,不断的循环。我预测 2025 年,AI 行业大概率会迎来真正的奇异点,而下一次爆发,我相信还是会在中国。

论文链接:arxiv.org/pdf/2501.12...

相关推荐
奔跑吧邓邓子5 分钟前
DeepSeek 赋能金融衍生品:定价与风险管理的智能革命
人工智能·金融衍生品·deepseek·金融市场·定价与风险管理
阿里云云原生7 分钟前
【发布实录】云原生+AI,助力企业全球化业务创新
人工智能·云原生·可观测·通义灵码
BFT白芙堂15 分钟前
涂胶协作机器人解决方案 | Kinova Link 6 Cobot在涂胶工业的方案应用与价值
人工智能·协作机器人·机器人解决方案·kinova·kinovalink6·bft机器人·工业涂胶
jndingxin21 分钟前
OpenCV CUDA模块图像处理------图像连通域标记接口函数connectedComponents()
图像处理·人工智能·opencv
Listennnn22 分钟前
让视觉基础模型(VFMs)像大语言模型(LLMs)一样“会思考”
人工智能·语言模型·自然语言处理
视觉语言导航28 分钟前
HRI-2025 | 大模型驱动的个性化可解释机器人人机交互研究
人工智能·深度学习·机器人·人机交互·具身智能
Jamence28 分钟前
多模态大语言模型arxiv论文略读(105)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
regret~1 小时前
【论文笔记】High-Resolution Representations for Labeling Pixels and Regions
图像处理·人工智能·深度学习·目标检测·机器学习
androidstarjack1 小时前
星动纪元的机器人大模型 VPP,泛化能力效果如何?与 VLA 技术的区别是什么?
人工智能·深度学习·机器学习·机器人
师范大学生1 小时前
基于cnn的通用图像分类项目
人工智能