[论文阅读]DeepSeek-V3 Technical Report

DeepSeek-V3 Technical Report

https://arxiv.org/abs/2412.19437

核心亮点:

多头潜在注意力机制MLA、DeepSeek MoE架构、多Token预测训练目标MTP

这张图其实已经可以比较清晰地说明MLA和MoE架构了。

对于MLA,主要的策略是把输入的hiddenstates进行降维,使得KV Cache的量更小,需要运算的时候再升维处理。MoE则是添加了Router,来决定当前token的隐状态走哪些公开的专家头,以及所有token一定都会走通用的专家头。

MLA

综合来开,MLA的核心思想仍然是压缩KV Cache的缓存量,采取的方法是把hidden states给使用低秩矩阵给压缩处理,需要用到的时候再升维处理。

还有是实现了RoPE和低秩压缩方案的解藕:

将 Query 和 Key 的维度拆分为两部分

  • 一部分(如 128 维)用于低秩压缩,不加 RoPE

  • 另一部分(如 64 维)单独加 RoPE,然后与压缩部分的输出拼接 。

这样既保留了相对位置信息,又兼容了压缩机制。

对照图2的内容

输入 X ──┬──→ W^DQ ──→ Q(标准,多头)

├──→ W^DKV ──→ c^KV(压缩 latent)──┬──→ W^UK ──→ K

│ │

│ └──→ W^UV ──→ V

└──→ W^KR ──→ k^R(解耦 RoPE)───────→ 与 K 拼接

具有辅助无损负载平衡的 DeepSeekMoE

主要亮点有以下内容:

  1. 门控机制+共享专家头机制
  2. 无损负载均衡,体现在动态的token对专家对偏好分数偏置值
  3. 互补序列辅助损失防止不平衡现象,损失的本质还是调整router的参数,损失使用的常规MoE架构中的损失,参考token分配比例、分配分数以及专家数量
  4. 节点限制路由,对每一个token进行限制,约束它最多被发送到M个专家节点中;
  5. 无token丢弃,针对的是上一代MoE架构中的专家容量超参数导致部分token溢出处理区而被丢弃的问题,核心的解决方法是前面的策略保证负载均衡,理论不溢出。

辅助无损负载平衡(不让某些热门专家垄断)

可以看到,这里的偏置是bi,而不是一个固定的b,所以表达的意思是每一个专家都有一个可以学习的偏置值,只用来路由,不参与其他计算。对于过载的专家,bias减小以降低被选择的概率;对于欠载的专家,bias增大以提高被选择的概率

互补序列辅助损失

f_i 是分配给专家 i 的 token 比例,p_i 是路由给专家 i 的平均门控分数,N_r 是专家数量,\alpha 是平衡系数。这个损失鼓励专家被均匀使用。

限制每一个token被分配的专家数目

这里其实强调的就是传统的MoE架构,比如deepseek v2版本中,引入了一个叫做专家容量的参数,限制每一个专家被分配的token数目,如果某一个专家已经到达了处理容量上限,那么下一个被分配的token将不被使用专家计算,而是直接跳过该专家,使用残差链接处理,也就是这里提到的"Token被丢弃"

多Token预测,MTP

MTP模块

MTP 不改变主模型的主体结构(如 Transformer 层、MoE 层等),而是在输出端增加额外的预测头(prediction heads)。假设我们设定预测深度为 D,即每个位置除了预测下一个 token 外,还额外预测未来第 2, 3, \dots, D 个 token。

复制代码
 标准:  输入 t 个token,预测第 t+1 个token
 MTP:  输入 t 个token,同时预测第 t+1, t+2, ..., t+D 个token
 ​
 D = 深度(Depth),DeepSeek-V3 中 D=4
  • 原始的输出头(称为 head₁)负责预测下一个 token。

  • 新增的 D-1 个独立输出头(head₂ 到 headₕ)分别负责预测未来第 2 至第 D 个 token。

  • 这些额外的头可以共享底层的 Transformer 表示,也可以有自己的轻量级参数(如一层线性变换 + softmax)。

在 DeepSeek-V3 的实现中,MTP 模块被设计为与主模型共享所有专家参数,仅增加少量额外的输出投影层,因此参数开销极小。

MTP训练目标

MTP 的额外头可以天然地用作投机采样中的草稿模型。在推理时,可以用 head₁ 生成下一个 token,同时用 head₂ 预测未来第二个 token,从而实现一次前向传播产出多个 token 的猜测,配合目标模型验证加速生成。

相关推荐
SUNNY_SHUN17 小时前
VLM走进农田:AgriChat覆盖3000+作物品类,607K农业视觉问答基准开源
论文阅读·人工智能·算法·开源
七元权1 天前
论文阅读-Fast-FoundationStereo
论文阅读
feasibility.2 天前
DreamZero技术解析:当世界模型成为机器人“物理大脑”
论文阅读·人工智能·机器人·零样本·具身智能·vla·世界模型
STLearner2 天前
WWW 2026 | 时空数据(Spatial Temporal)论文总结(交通预测,人群移动,轨迹表示,信控等)
大数据·论文阅读·人工智能·深度学习·机器学习·数据挖掘·自动驾驶
STLearner2 天前
WWW 2026 | 时间序列(Time Series)论文总结(预测,生成,插补,分类,异常检测等)
论文阅读·人工智能·深度学习·神经网络·算法·机器学习·数据挖掘
Biomamba生信基地2 天前
视频回放:《PHYTOMEDICINE》一作专访
论文阅读·生物信息学·单细胞测序
锅挤3 天前
来一篇儿:《Boosting Adversarial Attacks with Momentum》
论文阅读·机器学习
数说星榆1813 天前
罕见病例报告流程图学术论文用
论文阅读·人工智能·流程图
锅挤3 天前
来一篇儿:《DELVING INTO TRANSFERABLE ADVERSARIAL EX AMPLES AND BLACK-BOX ATTACKS》
论文阅读·人工智能