DeepSeek的成功源于其持续的技术创新。过去一年,该公司发布了多篇具有划时代意义的学术论文,确立了技术领先地位。
其中以下几篇尤为重要,因其在技术创新和实际应用中取得了重大突破:
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
DeepSeek-V3:高效的混合专家模型。 2024年12月发布,设计了一种高效的混合专家模型,通过激活少量参数实现性能和计算成本的平衡,是大规模模型优化的重要突破。
DeepSeek-LLM:以长期主义扩展开源语言模型。 2024年1月发布,从长期主义视角提出开源语言模型发展策略,推动技术民主化。提出了社区驱动的开源治理框架和多任务优化方法。
一、DeepSeek-R1:通过强化学习提升大型语言模型的推理能力
论文题目:《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 》
论文链接:arxiv.org/abs/2501.12...
论文试图解决的问题
这篇论文介绍了一种新的第一代推理模型------DeepSeek-R1系列,旨在通过强化学习(Reinforcement Learning, RL)提升大型语言模型(Large Language Models, LLMs)的推理能力。具体来说,论文试图解决以下几个问题:
-
无监督数据的推理能力培养
- 传统LLMs依赖大量监督数据来提升推理能力。
- 论文提出了一种不依赖监督微调(Supervised Fine-Tuning, SFT)的方法,通过纯强化学习过程来培养模型的推理能力。
-
推理时的性能扩展
- 研究如何有效地在测试时扩展推理能力,例如增加推理链(Chain-of-Thought, CoT)的长度。
-
模型的自进化能力
- 论文探索LLMs在没有监督数据的情况下,通过自我进化发展推理能力的可能性,特别是纯RL过程。
-
提高模型的可读性和泛化能力
- 通过引入冷启动数据和多阶段训练流程,提升模型的可读性和语言混合问题。
-
小型模型的推理能力提升
- 通过知识蒸馏技术,将大型模型的推理能力迁移到小型模型,以提高效率。
相关研究
推理增强研究
- OpenAI的o1系列模型: 通过增加CoT推理过程长度,提升数学、编程、科学推理等任务的性能。
过程和结果的奖励模型(Process-Based Reward Models)
- Lightman et al. (2023): 提出基于过程的奖励模型,引导模型更好地进行推理。
- Uesato et al. (2022): 提供过程和结果的反馈。
- Wang et al. (2023): 研究奖励模型如何引导模型更好推理。
强化学习(Reinforcement Learning)
- Kumar et al. (2024): 探索如何使用强化学习训练语言模型进行自我修正。
- Shao et al. (2024) & Wang et al. (2023): 研究强化学习在推理任务中的有效性。
搜索算法
- Feng et al. (2024), Trinh et al. (2024), Xin et al. (2024): 探索蒙特卡洛树搜索(Monte Carlo Tree Search)和束搜索(Beam Search)在推理任务中的应用。
模型蒸馏(Model Distillation)
- Qwen (2024b) & Llama (Dubey et al., 2024): 论文利用这些基础模型进行知识蒸馏,以提升小型模型推理能力。
人类偏好对齐(Aligning with Human Preferences)
- Hendrycks et al. (2020), Gema et al. (2024), Wang et al. (2024): 研究多任务语言理解的基准测试,帮助模型对齐人类偏好。
代码和数学基准测试
- Jain et al. (2024) & MAA (2024): 评估代码和数学任务的基准测试。
论文如何解决这些问题?
1. 引入DeepSeek-R1-Zero模型
- 无监督强化学习(RL): 不依赖SFT,展示出色推理能力。
- 自进化: 训练过程中自然发展推理行为,如自我验证、反思、长CoT推理链。
2. 引入DeepSeek-R1模型
- 多阶段训练 & 冷启动数据: 解决DeepSeek-R1-Zero的可读性和语言混合问题。
- 冷启动数据收集: 通过少量提示和模型自生成答案,微调DeepSeek-V3-Base模型作为RL起点。
3. 强化学习算法
- Group Relative Policy Optimization (GRPO): 通过组分数估计基线,避免使用与策略模型同样大小的评论模型,降低RL训练成本。
4. 奖励建模
- 准确性奖励和格式奖励: 采用基于规则的奖励系统,训练模型生成特定格式的推理过程和最终答案。
5. 训练模板
- 推理过程和答案的模板: 训练模型首先生成推理过程,然后生成最终答案。
6. 知识蒸馏
- 大型模型向小型模型迁移推理能力: 使用Qwen2.5和Llama作为基础模型,从DeepSeek-R1进行蒸馏,提升小型模型推理能力。
7. 实验和评估
- 广泛基准测试: 数学、编程、知识问答等任务,验证模型性能。
论文实验
-
DeepSeek-R1 评估
- 基准测试: MMLU、C-Eval、SWE-Bench Verified、Codeforces等。
- 开放性任务: 采用AlpacaEval 2.0和Arena-Hard评估。
- 与其他模型比较: DeepSeek-V3, Claude-Sonnet-3.5, GPT-4o, OpenAI-o1-mini等。
-
知识蒸馏模型评估
- 小型模型性能: AIME 2024, GPQA Diamond, Codeforces等任务。
- 与开源模型比较: 与QwQ-32B-Preview等进行对比。
-
实验设置
- 最大生成长度: 32,768个token。
- 评估方法: 使用pass@k评估,并报告pass@1结果。
- 共识结果: 对AIME 2024,报告使用64个样本的共识(多数投票)结果。
未来研究方向
- 长期推理链(Long CoT): 增强函数调用、多轮对话、复杂角色扮演、JSON输出等任务能力。
- 优化多语言处理能力: 解决DeepSeek-R1在非中文或英文查询时的语言混合问题。
- 减少对提示的敏感性: 优化零样本设置下的性能。
- 提升软件工程任务的效率: 采用拒绝采样或异步评估提高性能。
- 扩展模型规模和数据: 进一步提升推理能力。
- 优化GRPO算法: 提高训练效率和模型性能。
- 更复杂的奖励系统: 结合规则和神经网络方法优化奖励建模。
- 多模态输入的处理: 跨领域任务推理能力增强。
- 增强安全性和伦理性: 避免有害内容生成。
- 模型实际应用: 在教育、医疗咨询、客户服务等领域部署。
论文总结
论文提出DeepSeek-R1系列模型,利用强化学习提升LLMs推理能力。通过多阶段训练、奖励建模、知识蒸馏等手段,提升推理能力,并在多个基准测试中验证有效性。此外,论文开源模型和相关工具,支持研究社区进一步探索和改进。
二、DeepSeek-V3:高效的混合专家模型
论文题目:《DeepSeek-V3 Technical Report》
论文链接:arxiv.org/abs/2412.19...
研究动机和背景
DeepSeek-V3,这是一个具有671B参数的大型混合专家(Mixture-of-Experts,MoE)语言模型,其中每个标记激活了37B参数。论文的主要目标是实现高效的推理和成本效益的训练。为了解决这些问题,论文提出了以下几个关键点:
-
架构优化:DeepSeek-V3采用了多头潜在注意力(Multi-head Latent Attention,MLA)和DeepSeekMoE架构,这些在DeepSeek-V2中已经得到了验证,能够保持模型性能的同时实现高效的训练和推理。
-
无辅助损失的负载均衡策略:为了解决模型性能因负载均衡而退化的问题,DeepSeek-V3引入了一种无辅助损失的负载均衡策略,以最小化因鼓励负载均衡而对模型性能产生的不利影响。
-
多标记预测训练目标:DeepSeek-V3采用了多标记预测(Multi-Token Prediction,MTP)训练目标,这被观察到可以增强模型在评估基准上的整体性能。
-
高效的训练支持:论文支持FP8混合精度训练,并针对训练框架进行了全面的优化,以实现加速训练和降低GPU内存使用。
-
预训练和上下文扩展:DeepSeek-V3在14.8万亿高质量和多样化的标记上进行预训练,并进行了两阶段的上下文长度扩展,以增强模型处理长上下文的能力。
-
后训练优化:包括监督式微调和强化学习,以进一步解锁模型潜力,并使其与人类偏好对齐。
-
经济高效的训练成本:尽管性能出色,DeepSeek-V3的训练成本仅为2.788M H800 GPU小时,训练过程非常稳定,没有经历任何不可恢复的损失峰值或回滚。
相关研究
DeepSeek 系列模型
- DeepSeek-AI, 2024a,b,c; Guo et al., 2024: 这些文献涉及 DeepSeek 系列模型的早期版本,可能介绍了模型的基本架构和性能表现。
LLaMA 系列模型
- AI@Meta, 2024a,b; Touvron et al., 2023a,b: 这些文献可能包含了 LLaMA 系列模型的详细信息,包括模型架构和性能评估。
Qwen 系列模型
- Qwen, 2023, 2024a,b: 这些文献可能描述了 Qwen 系列模型的发展和性能,它们是 DeepSeek-V3 的竞争对手。
Mistral 系列模型
- Jiang et al., 2023; Mistral, 2024: 这些文献可能提供了 Mistral 系列模型的信息,这些模型与 DeepSeek-V3 一样,旨在提高开源模型的性能。
相关技术和方法
- Dettmers et al., 2022; Kalamkar et al., 2019; Narang et al., 2017; Peng et al., 2023b: 这些文献可能探讨了低精度训练技术,与 DeepSeek-V3 中采用的 FP8 混合精度训练框架相关。
硬件能力提升
- Luo et al., 2024; Micikevicius et al., 2022; Rouhani et al., 2023a: 这些文献可能讨论了硬件能力的进步,这些进步与 DeepSeek-V3 训练效率的提升密切相关。
模型性能评估
- Anthropic, 2024; Google, 2024; OpenAI, 2024a: 这些文献可能包含了与 DeepSeek-V3 性能比较相关的闭源模型信息。
特定技术实现
- Dai et al., 2024; Wang et al., 2024a: 这些文献可能详细介绍了 DeepSeekMoE 架构和无辅助损失的负载均衡策略,这些是 DeepSeek-V3 的关键技术组成部分。
核心内容
论文通过以下几个关键技术和策略解决了实现高效推理和成本效益训练的问题:
1. 架构优化
- Multi-head Latent Attention (MLA) 和 DeepSeekMoE:已在 DeepSeek-V2 中验证,能够在保持模型性能的同时实现高效的训练和推理。
2. 无辅助损失的负载均衡策略
- 引入无辅助损失的负载均衡策略,最小化因负载均衡对模型性能的不利影响。
3. 多标记预测训练目标
- 采用多标记预测(MTP)训练目标,增强模型在评估基准上的整体性能。
4. 高效的训练支持
- FP8混合精度训练框架:支持 FP8 计算和存储,加速训练并减少 GPU 内存使用。
- 训练框架优化:设计 DualPipe 算法实现高效的流水线并行处理,通过计算-通信重叠减少通信开销。
5. 预训练和上下文扩展
- 在 14.8 万亿高质量和多样化的标记上进行预训练。
- 进行两阶段的上下文长度扩展,增强模型处理长上下文的能力。
6. 后训练优化
- 包括监督式微调和强化学习,进一步解锁模型潜力,并使其与人类偏好对齐。
7. 经济高效的训练成本
- 通过算法、框架和硬件的共同设计,克服跨节点 MoE 训练中的通信瓶颈,显著提高训练效率并降低训练成本。
具体技术细节
Multi-head Latent Attention (MLA)
- 通过低秩联合压缩减少注意力键值对缓存,降低推理时的内存需求。
DeepSeekMoE with Auxiliary-Loss-Free Load Balancing
- 使用无辅助损失的负载均衡策略,动态调整专家的偏置项以保持负载均衡。
Multi-Token Prediction (MTP)
- 通过预测多个未来标记来增加训练信号密度,可能提高数据效率并使模型能够更好地预规划表示。
FP8 Training
- 提出使用 FP8 数据格式进行混合精度训练的框架,通过瓦片和块分组的细粒度量化策略,以及提高积累精度,有效扩展 FP8 格式的动态范围。
Infrastructures
- 使用 2048 个 NVIDIA H800 GPU 的计算集群,实现高效的跨节点通信和内存优化。
Post-Training
- 通过从 DeepSeek-R1 系列模型中提取推理能力,提高模型的推理性能,同时保持输出风格和长度的控制。
论文实验
根据提供的论文内容,以下是DeepSeek-V3进行的一些关键实验和评估:
1. 架构和训练策略评估
- 无辅助损失的负载均衡策略 :
- 通过与传统的辅助损失方法对比,验证了无辅助损失策略在保持模型性能的同时实现负载均衡的有效性。
- 多标记预测(MTP)策略 :
- 在不同规模的模型上应用MTP策略,并与其他基线模型比较,评估MTP对模型性能的影响。
2. 基础设施和训练框架测试
- DualPipe算法 :
- 通过实验验证了DualPipe算法在减少流水线气泡和隐藏通信开销方面的效率。
- 跨节点All-to-All通信 :
- 测试了定制的跨节点All-to-All通信核的性能,确保高效的通信和计算重叠。
- FP8混合精度训练框架 :
- 在不同规模的模型上应用FP8训练,并与传统的BF16训练对比,验证FP8训练框架的有效性和准确性。
3. 预训练和上下文扩展
- 长上下文扩展 :
- 通过两阶段的上下文长度扩展训练,验证模型处理长上下文的能力,并在"Needle In A Haystack"测试中评估模型性能。
4. 后训练优化
- 监督式微调(SFT) :
- 在多个领域的数据集上进行微调,评估模型在特定任务上的性能提升。
- 强化学习(RL) :
- 通过使用不同的奖励模型和策略优化,测试模型在对齐人类偏好和提升性能方面的有效性。
5. 综合基准测试
- 多语言和多领域评估 :
- DeepSeek-V3 在一系列包括教育、语言理解、问答、编程和数学等多个领域的标准和开放式基准测试中进行了评估,并与当前最强的开源和闭源模型进行比较。
6. 经济性分析
- 训练成本分析 :
- 分析DeepSeek-V3的总训练成本,包括预训练、上下文扩展和后训练阶段的GPU小时数和成本。
7. 硬件设计建议
- 通信和计算硬件的优化 :
- 基于DeepSeek-V3的实施经验,提出针对未来AI硬件设计的通信和计算硬件的建议。
这些实验和评估不仅验证了DeepSeek-V3模型的技术策略和性能,还展示了其在多个领域的应用潜力和经济效益。通过这些综合测试,论文全面展示了DeepSeek-V3作为当前最强开源模型的能力。
三、DeepSeek-LLM:以长期主义扩展开源语言模型
论文题目:《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》
论文链接:arxiv.org/abs/2401.02...
论文研究问题
这篇论文试图解决的主要问题是如何有效地扩展开源大型语言模型(LLMs),特别是在 7B 和 67B 两个广泛使用的模型配置中。具体来说,论文关注以下几个方面:
-
规模扩展的规律(Scaling Laws):
- 论文深入研究了 LLMs 的扩展规律,以指导如何在保持性能的同时增加模型和数据的规模。
- 研究超参数(如批量大小和学习率)的扩展规律,并探索模型和数据规模的最优分配策略。
-
数据集的质量与多样性:
- 论文强调数据集质量对模型扩展行为的影响。
- 通过迭代改进数据集,提高数据质量,从而显著影响模型扩展的效率和效果。
-
模型架构与超参数的优化:
- 论文基于 LLaMA 架构,对模型的宏观设计进行了微调,以优化训练和推理。
- 通过实验确定最优的超参数设置。
-
模型训练与评估:
- 介绍用于训练和评估 DeepSeek LLM 的高效框架,包括数据并行、张量并行、序列并行和 1F1B 流水线并行等技术。
- 讨论模型训练的稳定性和效率问题。
-
模型的对齐(Alignment):
- 研究如何通过监督微调(SFT)和直接偏好优化(DPO)提高模型的对齐性,使其在生成响应时更加有帮助、无害和符合人类价值观。
-
模型的安全性:
- 强调在模型开发过程中确保安全性的重要性。
- 提出一种安全内容分类系统来评估模型的安全性。
-
模型的性能评估:
- 论文通过在多个公共基准测试和开放性评估中对 DeepSeek LLM 进行评估,展示其在代码、数学和推理等领域的优越性能。
通过这些研究,论文旨在为开源 LLMs 的长期发展奠定基础,并为未来在这一领域的进一步进步铺平道路。
相关研究
论文提到的相关研究主要集中在以下几个方面:
大型语言模型(LLMs)的扩展规律(Scaling Laws):
- Hoffmann 等人(2022)和 Kaplan 等人(2020)的研究提出了关于模型和数据扩展的结论。
- Chinchilla(Hoffmann 等人,2022)提出了 IsoFLOP 曲线方法,用于拟合扩展曲线。
数据集的构建与优化:
- 计算机(2023)、高等人(2020)、Penedo 等人(2023)和 Touvron 等人(2023a)的研究为数据集的构建提供了见解。
- 论文中提到的数据集处理策略,如去重、过滤和重混,基于现有研究和实践。
模型架构与训练技术:
- LLaMA 系列模型(Touvron 等人,2023a,b)提供了一个高效的模型架构作为参考。
- Grouped-Query Attention(GQA)技术(Ainslie 等人,2023)用于优化推理成本。
- HAI-LLM 框架(High-flyer,2023)结合数据并行、张量并行、序列并行和 1F1B 流水线并行等技术。
模型对齐与安全性:
- 直接偏好优化(DPO)方法(Rafailov 等人,2023)用于提高模型的对齐性。
- "Do-Not-Answer"数据集(Wang 等人,2023)用于安全性评估。
模型评估:
- 使用公开基准测试(HellaSwag、PIQA、ARC、OpenBookQA)。
- 对于中文任务,使用 C-Eval、CMMLU、CMath 等数据集。
论文解决方案
论文通过以下几个关键步骤解决 LLM 扩展问题:
-
深入研究扩展规律(Scaling Laws):
- 对超参数(批量大小和学习率)的扩展规律进行建模。
- 使用 IsoFLOP 曲线方法拟合扩展曲线,分析模型和数据规模的最优分配策略。
-
构建和优化数据集:
- 通过去重、过滤和重混策略,确保数据集的多样性和信息密度。
- 在数据集迭代过程中,提升数据质量,以提高训练效率。
-
设计和训练模型:
- 基于 LLaMA 架构调整模型设计,以优化训练和推理过程。
- 使用多步学习率调度器,以维持性能。
-
模型对齐和安全性:
- 采用监督微调(SFT)和直接偏好优化(DPO)提高模型的对齐性。
- 训练过程确保安全性,包括预训练、SFT 和 DPO 阶段。
-
全面评估模型性能:
- 在公共基准测试(代码、数学、推理)中评估 DeepSeek LLM。
- 使用"Do-Not-Answer"数据集评估模型的安全性。
论文实验
论文中进行的实验包括:
1. 超参数扩展规律实验:
- 对小规模实验进行网格搜索,确定最佳批量大小和学习率。
- 使用多步学习率调度器训练多个模型,分析扩展关系。
2. 模型和数据扩展规律实验:
- 使用 IsoFLOP 曲线方法分析最优模型/数据扩展策略。
- 引入非嵌入 FLOPs/tokens 作为新的模型规模表示。
3. 不同数据集的扩展规律实验:
- 在早期内部数据、当前内部数据和 OpenWebText2 上研究扩展规律。
- 分析数据质量对最优扩展策略的影响。
4. 模型训练实验:
- 使用 HAI-LLM 框架训练 DeepSeek LLM 7B 和 67B 模型。
- 采用数据并行、张量并行、序列并行和 1F1B 流水线并行等技术。
5. 模型对齐实验:
- 对 DeepSeek LLM 7B 和 67B 进行监督微调(SFT)。
- 使用直接偏好优化(DPO)增强对话性能。
6. 模型评估实验:
- 在多个公共基准测试(语言理解、数学、代码)评估模型。
- 进行开放性评估,测试模型在中文和英文任务中的能力。
- 使用"Do-Not-Answer"数据集评估安全性。
7. 模型性能比较实验:
- 将 DeepSeek LLM 与 LLaMA-2 和其他模型进行对比。
- 分析不同模型在代码、数学、推理等领域的性能差异。
数据处理
- 处理了包含 2 万亿个 token 的双语数据集(中文和英文)。
- 采取了去重、过滤和重新混合三阶段策略,以提高数据多样性和信息密度。
- 使用 Byte-level Byte-Pair Encoding(BBPE)分词算法,词表大小设置为 102,400。
模型架构
微观设计
- 借鉴 LLaMA 的架构,采用 RMSNorm 和 SwiGLU 激活函数,以及旋转位置编码。
宏观设计
- DeepSeek LLM 7B 具有 30 层,而 67B 增加至 95 层,并通过深度扩展优化性能。
超参数优化
- 引入多阶段学习率调度器,优化训练过程并支持持续训练。
- 使用 AdamW 优化器,并对学习率、批次大小等关键超参数进行了规模化规律研究。
基础设施
- 开发了高效轻量化的训练框架 HAI-LLM,集成了数据并行、张量并行等技术,显著提升硬件利用率。
模型规模化规律
超参数规模化规律
- 通过实验发现,随着计算预算增加,最佳批次大小随之增大,而学习率则逐渐降低。
- 提出了经验公式,以更准确地预测不同规模模型的超参数。
模型与数据规模分配策略
- 引入了非嵌入 FLOPs/token(MMM)作为模型规模的度量方式,替代传统的参数数量表示,显著提高了计算预算分配的精确性。
- 实验表明,高质量数据允许更多的预算分配到模型规模扩展上,从而提升性能。
对齐与微调
监督微调(SFT)
- 收集了 150 万条指令数据,包括通用语言任务、数学问题和代码练习。
- 在微调中,通过两阶段策略降低了模型的重复生成率,同时保持了基准性能。
直接偏好优化(DPO)
- 使用多语言提示生成偏好数据,通过优化模型对开放式问题的生成能力显著增强。
性能评估
公共基准测试
数学和代码
- DeepSeek LLM 67B 在 HumanEval 和 GSM8K 上显著优于 GPT-3.5 和 LLaMA-2 70B。
中文任务
- 在 C-Eval、CMath 等基准上,DeepSeek 表现出色,尤其在中文成语填空(CHID)等文化任务中远超 LLaMA-2。
开放式生成能力
- 在 AlignBench 中文测试中,DeepSeek 67B Chat 在逻辑推理和文本生成等任务上表现接近 GPT-4。
- 英文测试中,DeepSeek 67B Chat 在多轮对话生成能力上超越大多数开源模型。