DeepSeek-R1技术突破：纯RL训练竟能激发大模型"反思"能力？

开发｜界面｜引擎｜交付｜副驾------重写全栈法则：AI原生的倍速造应用流

来自全栈程序员 nine 的探索与实践，持续迭代中。

欢迎关注评论私信交流~

在AI领域，大模型的推理能力一直是研究热点。2025年初，DeepSeek团队发布的R1模型带来了一项令人惊讶的发现：仅通过强化学习(RL)训练，无需监督微调(SFT)，就能让大模型自发产生带有反思的思维链(long CoT)。这一发现颠覆了此前行业对模型训练范式的认知。

从OpenAI o1到DeepSeek-R1的认知转变

最初，业界普遍认为像OpenAI o1这样的先进模型需要将推理时扩展(Inference/test-time scaling)和强化学习作为两个独立模块。这种认知源于一个基本假设：模型无法自发产生复杂思维链，必须通过显式引导。

然而，DeepSeek-R1-Zero的实验结果打破了这一假设。研究团队仅通过以下简单设置：

graph LR A[基础模型] --> B[RL训练] B --> C[规则奖励系统] C --> D[准确性奖励] C --> E[格式奖励]

就观察到了模型行为的惊人进化：

基于Zero的实验发现，DeepSeek团队设计了创新的两阶段训练方案：

graph TD A[基础模型] --> B[冷启动SFT] B --> C[第一阶段RL] C --> D[生成新数据集] D --> E[第二阶段SFT] E --> F[第二阶段RL] F --> G[最终模型]

关键创新点在于：

这一技术路径显示出几大优势：

目前，DeepSeek-R1在多项基准测试中表现优异，特别是在AIME测试中，通过多数投票策略使准确率从71%提升至86.7%，超越了OpenAI o1的同期版本。

这一发现不仅为大模型训练提供了新思路，也引发了关于"模型自发能力涌现"的深层思考。未来，结合RL与推理时扩展的混合方法，可能会成为大模型发展的主流方向。