DeepSeek-R1 论文阅读总结

1. QA问答（我的笔记）

Q1: DeepSeek如何处理可读性问题？

通过构建冷启动数据（数千条长CoT数据）微调基础模型，结合多阶段训练流程（RL训练、拒绝采样生成SFT数据），并优化输出格式（如特殊标记分隔），显著提升可读性。相比仅用RL的Zero版本，改进后的R1保持了推理能力且输出更易读。

Q2: DeepSeek-R1-Zero与R1的核心区别？

-R1-Zero：纯RL训练，无监督数据，输出存在语言混杂、可读性差

-R1：引入监督学习阶段

冷启动阶段用高质量CoT数据微调

拒绝采样生成600K过滤数据（移除混合语言/冗余内容）

二阶段RL（推理任务用规则奖励，通用任务用人类偏好奖励）

Q3: 如何验证推理能力蒸馏效果？

在标准评测网站（如LiveCodeBench/Codeforces）测试，经蒸馏的小模型性能超越直接用RL训练的同规模模型。

Q4: 成本节约方法？

自进化RL减少监督数据需求

GRPO算法优化RL训练效率

复用V3训练集生成思维链

方法论创新：提出四阶段训练框架（冷启动→推理RL→数据生成→通用能力RL）

性能突破：在数学（MATH-500 97.3%）知识任务（MMLU 90.8%）达到SOTA

工程实践：解决纯RL训练的可读性缺陷，构建首个支持人类友好CoT的RL优化模型

技术验证：证明RL可通过自我进化提升推理能力，且该能力可蒸馏至小模型

|------|----------------------------|------|
| 任务类型 | 奖励构成 | 目标特性 |
| 推理任务 | 准确性(70%)+过程合规性(30%) | 严谨性 |
| 通用任务 | 有用性(50%)+无害性(30%)+可读性(20%) | 安全性 |

MCTS应用失败：语言生成空间离散性导致搜索复杂度爆炸（相比围棋增长10^3倍）

过程奖励困境：

原子步骤定义模糊（如数学证明中间态）

需人工标注百万级步骤数据（成本$380K+）

奖励黑客问题频发（模型学会伪造合规步骤）

蒸馏优化：探索RL+蒸馏联合框架（当前仅用SFT）

架构改进：

动态上下文窗口（当前固定4K）

混合专家系统（MoE）提升工程能力

自进化系统：构建完全闭环的RL训练生态（人工标注量<1%）

多模态推理：扩展至视觉-语言联合推理场景

安全增强：研发可解释的奖励模型（当前黑盒率>92%）