从DeepSeek-V3到DeepSeek-R1:中国AI团队的技术突破与创新

从V3到R1:中国AI团队的颠覆性进化,DeepSeek如何重新定义技术边界?

©作者| Lorne

来源| 神州问学近年来,全球人工智能领域正在经历一场由大语言模型(LLM)引领的范式革命。在这场技术浪潮中,中国的研究团队正从"跟跑者"逐步成长为"领跑者",而DeepSeek无疑是其中最引人注目的先锋力量之一。DeepSeek凭借其DeepSeek-v3和DeepSeek-R1系列模型,不仅在国内市场占据重要地位,更在国际学术界和工业界获得了广泛认可。

当业界讨论这些性能卓越的大模型时,强化学习、MoE(Mixture of Experts)架构等热门技术概念往往成为焦点。然而,这些显性的技术组件只是冰山一角。通过深入研读DeepSeek发布的技术报告,我们会发现一个更加精彩的技术世界------在标准架构之外,DeepSeek工程师们创造性地应用了大量创新性的"黑科技",这些技术如同精密的齿轮,协同驱动着模型性能的突破。

这些技术创新并非偶然。DeepSeek团队在模型研发过程中展现出独特的技术哲学:不盲目追求模型规模的无限扩大,而是通过架构创新和算法优化,在同等计算资源下实现更高效的智能涌现。这种技术路线使得DeepSeek的模型在参数量相对可控的情况下,依然能够与全球顶尖模型同台竞技。

本文将基于DeepSeek官方发布的R1和v3技术报告,系统剖析这些隐藏在表面架构之下的关键技术突破。我们将重点关注基座模型DeepSeek-V3的架构创新以及DeepSeek-R1的训练算法创新。

值得一提的是,DeepSeek的技术创新并非闭门造车。从其技术报告中可以看出,这些突破既包含对国际前沿技术的创造性改进,也有完全原创的技术方案。这种"站在巨人肩膀上再创新"的研发策略,或许正是中国AI团队实现技术突围的关键所在。

下面,就让我们从DeepSeek系列模型的技术细节开始,逐步揭开这些"黑科技"的神秘面纱。

DeepSeek-V3 架构创新


DeepSeek-V3是一个混合专家(MoE)架构的模型,总共拥有671B的参数,每个token会激活其中的37B参数,以实现高效的推理和训练。在架构方面,沿用了DeepSeek-V2验证有效的MLA(多头潜在注意力机制)和DeepSeekMoE架构,同时引入了MTP(多token预测)的训练目标和无辅助损失负载均衡策略,可以平衡负载均衡对模型性能产生的影响。

图1 DeepSeek-V3 基础架构示意图

**

**

多头潜在注意力(Multi-Head Latent Attention, MLA)

KVcahe是提高注意力机制运算速度的重要手段,如何减少KVcache的占用空间,也是诸如MQA、GQA之类的方法优化的方向。MLA的核心思路是压缩每次注意力层输入的隐藏状态,然后在计算注意力矩阵时再将压缩后的潜在向量映射回原来维度大小的K和V。类似地,Q也可以经过不同的降维矩阵映射到一个潜在的低维向量,当需要参与计算时再通过一个上投影矩阵映射回来。具体可以参考下面的公式:

在公式中我们会发现,最终的K和Q向量会由额外的经过RoPE的K和Q拼接而成,这是因为MLA内部由于引入了对隐藏状态升维降维的操作,导致RoPE与MLA不兼容,因此需要引入额外的Q和K来保留位置信息。

**DeepSeekMoE 架构

**

对于前馈网络部分,DeepSeek-V3 采用了 DeepSeekMoE 架构。与传统的 MoE 架构相比,DeepSeekMoE 使用了更细粒度的专家网络,并将部分专家隔离出来作为共享专家。共享专家在所有计算中都会被激活,而相对来说,在每次计算中,路由专家只会有一部分被激活然后参与运算,保证了MoE架构计算的稀疏性。下面是DeepSeekMoE架构的公式:

其中,Ns和Nr分别表示共享专家数量和路由专家数量;FFN(s)I和FFN(r)I分别表示第i个共享专家和第j个路由专家;Kr表示被激活的路由专家数量;git表示第i个专家对第t个token的门控值(gating value);sit表示 token 与专家之间的亲和度(token-to-expert affinity);ei是第i个路由专家的中心向量;Topk(i, K)表示为第t个token 与所有路由专家计算得到的亲和度中得分最高的K个结果所组成的集合。其中,𝑁𝑠 和 𝑁𝑟 分别表示共享专家数量和路由专家数量;

简单来说,FFN的输出可以分为三个部分之和,第一个部分是原本输入的残差连接,第二个部分是共享专家输出的和,第三个部分则是通过门控值来计算与当前输入最相关的几个路由专家,然后再通过这几个路由专家得到最后结果。

无辅助损失负载均衡策略是DeepSeek的研究人员为了解决路由专家激活不均衡问题提出的。为了防止模型能力的下降,并没有添加一些辅助损失来迫使一些专家被激活,而是在门控值的计算过程中,给每个专家都添加了一个偏置项。

需要特别注意的是,这里的偏置项只用于路由专家的选择过程,门控值的计算仍然使用原来没有偏置项的公式。通过在训练过程中动态调整bias来平衡所有专家的激活和负载。

图2 MTP基础架构示意图

**MTP多token预测

**

MTP的核心思想是通过多个MTP模块,在每个位置不仅预测下一个token,还预测多个未来token,从而提高训练效率。一方面,MTP 目标能够增强训练信号密度,从而可能提升数据利用效率;另一方面,MTP 可能使模型提前规划其表征,以更好地预测未来的 token。

对于一个传入主模型训练的序列{t1, t2, ..., ti},为其添加D个MTP模块,每个模块都由主模型共享的embedding层、输出头、投影矩阵、以及各自的transformer模块构成。在第k个MTP模块中,输入为公式对于一个传入

hik-1表示来自前一层的隐藏状态,Emb(ti+k)表示第i+k个 token,将他们归一化后拼接,然后再由投影矩阵Mk投影回适配的维度后送入transformer模块,并获取第k个隐藏状态和预测概率。

对于最后的训练目标,有公式

其意义在于对于每一层MTP使用交叉熵损失计算误差,最后对所有的误差取平均,并乘一个权重因子作为最终的训练目标。

**DeepSeek-R1 训练算法创新

**

DeepSeek-R1技术报告主要提到了两个核心版本:以DeepSeek-V3为基座,推出DeepSeek-R1-Zero和DeepSeek-R1。主要贡献在于,使用DeepSeek-R1-Zero验证了纯强化学习再LLM中显著提高推理能力的可能性;提出了多阶段训练策略(冷启动->RL->SFT->全场景 RL),有效兼顾准确率与可读性,产出 DeepSeek-R1;展示了知识蒸馏在提升小模型推理能力方面的潜力,并开源多个大小不一的蒸馏模型(1.5B~70B)。

GRPO

**

**

为了节省大模型强化学习的训练成本,提出并采用了GRPO算法,它省略了传统PPO中的评判模型(Critic Model),而是从一组输出中估计基线。具体来说,对于每个问题q,GRPO都要从旧策略中采样一组输出,然后通过最大化下面的目标来优化策略模型

DeepSeek-R1训练Pipeline

只经过强化学习后的DeepSeek-R1-Zero,证明没有经过任何监督微调,模型也能够获得强大的推理能力,在多个数据集上都能够得到相当不错的水平。但DeepSeek-R1-Zero仍存在一些问题,如推理可读性差,语言混用等。为了解决这个问题,设计了以下的训练流程,并成功推出了DeepSeek-R1模型。

1、 冷启动

与 DeepSeek-R1-Zero 不同,为了避免强化学习训练初期模型不稳定的"冷启动"阶段,DeepSeek-R1 在训练初期构建并收集了少量长链式思维(CoT, Chain of Thought)数据,对模型进行微调,作为强化学习的初始策略模型(actor model)。

2、 面向推理的强化学习

这一步骤采取了与DeepSeek-R1-Zero相同的大规模强化学习流程,以提升推理能力,特别是在那些推理密集型任务中,如编程、数学、科学和逻辑推理等。这些任务通常是问题定义明确、具有清晰答案的。同时为了解决CoT中存在的语言混用现象,在训练中引入了一个语言一致性奖励,将最后的准确率奖励与之相加得到最终的强化学习奖励函数。

3、 拒绝采样和监督微调

在强化学习收敛后,使用当前的模型检查点来收集监督微调数据。与初始的冷启动数据主要专注于推理任务不同,此阶段会引入来自其他领域的数据,以提升模型在写作、角色扮演以及其他通用任务中的能力。数据包括推理数据和非推理数据,非推理数据复用了DeepSeek-V3的部分SFT数据集,对于推理数据,从之前得到的检查点生成回答,并通过拒绝采样、数据清洗等方法筛选高质量推理数据。

4、 面向全场景的强化学习

这一步的强化学习是为了使模型进一步贴近人类偏好,提升模型的有用性(helpfulness)和无害性(harmlessness),同时进一步强化其推理能力,并分别在推理和通用数据上利用基于规则和基于模型的奖励进行指导。对于有用性,只关注最后的总结内容,确保内容的实用性,尽量减少对推理过程的干扰;对于无害性,评估整个响应,减少可能出现的风险、偏见或有害内容。

结语

正如 DeepSeek 所展示的那样,前沿技术的跃迁不再仅依赖于参数堆叠或数据规模的扩张,而是在于对模型架构、训练范式乃至推理机制的深度重构与创新。当中国团队从底层机制出发,持续打磨每一个模块、挑战每一个假设,便不仅是在参与这场全球 AI 的竞赛,更是在重新定义未来智能系统的形态与标准。在通往通用人工智能的道路上,中国力量,正逐步走向台前。

相关推荐
hao_wujing5 小时前
深度学习网络入侵检测系统警报
人工智能·深度学习
L-ololois6 小时前
【AI】模型vs算法(以自动驾驶为例)
人工智能·算法·自动驾驶
猎嘤一号7 小时前
使用 PyTorch 和 SwanLab 实时可视化模型训练
人工智能·pytorch·深度学习
Jay Kay7 小时前
论文阅读:强化预训练
人工智能·语言模型·自然语言处理
蹦蹦跳跳真可爱5898 小时前
Python----神经网络发(神经网络发展历程)
人工智能·python·深度学习·神经网络·计算机视觉
学步_技术9 小时前
增强现实—Flame: Learning to navigate with multimodal llm in urban environments
人工智能·机器学习·计算机视觉·语言模型·自然语言处理·ar
飞飞是甜咖啡9 小时前
【机器学习】Teacher-Student框架
人工智能·算法·机器学习
愿所愿皆可成9 小时前
机器学习之集成学习
人工智能·随机森林·机器学习·集成学习
广州正荣9 小时前
成绩管理革新者:C++驱动的智能数据处理平台
c++·人工智能·科技
Prokint.9 小时前
GPU算力租用平台推荐(AI/游戏串流/渲染/办公)
人工智能·游戏·云计算·gpu算力