[论文阅读]DeepSeek-V3 Technical Report

DeepSeek-V3 Technical Report

https://arxiv.org/abs/2412.19437

核心亮点:

多头潜在注意力机制MLA、DeepSeek MoE架构、多Token预测训练目标MTP

这张图其实已经可以比较清晰地说明MLA和MoE架构了。

对于MLA,主要的策略是把输入的hiddenstates进行降维,使得KV Cache的量更小,需要运算的时候再升维处理。MoE则是添加了Router,来决定当前token的隐状态走哪些公开的专家头,以及所有token一定都会走通用的专家头。

MLA

综合来开,MLA的核心思想仍然是压缩KV Cache的缓存量,采取的方法是把hidden states给使用低秩矩阵给压缩处理,需要用到的时候再升维处理。

还有是实现了RoPE和低秩压缩方案的解藕:

将 Query 和 Key 的维度拆分为两部分

  • 一部分(如 128 维)用于低秩压缩,不加 RoPE

  • 另一部分(如 64 维)单独加 RoPE,然后与压缩部分的输出拼接 。

这样既保留了相对位置信息,又兼容了压缩机制。

对照图2的内容

输入 X ──┬──→ W^DQ ──→ Q(标准,多头)

├──→ W^DKV ──→ c^KV(压缩 latent)──┬──→ W^UK ──→ K

│ │

│ └──→ W^UV ──→ V

└──→ W^KR ──→ k^R(解耦 RoPE)───────→ 与 K 拼接

具有辅助无损负载平衡的 DeepSeekMoE

主要亮点有以下内容:

  1. 门控机制+共享专家头机制
  2. 无损负载均衡,体现在动态的token对专家对偏好分数偏置值
  3. 互补序列辅助损失防止不平衡现象,损失的本质还是调整router的参数,损失使用的常规MoE架构中的损失,参考token分配比例、分配分数以及专家数量
  4. 节点限制路由,对每一个token进行限制,约束它最多被发送到M个专家节点中;
  5. 无token丢弃,针对的是上一代MoE架构中的专家容量超参数导致部分token溢出处理区而被丢弃的问题,核心的解决方法是前面的策略保证负载均衡,理论不溢出。

辅助无损负载平衡(不让某些热门专家垄断)

可以看到,这里的偏置是bi,而不是一个固定的b,所以表达的意思是每一个专家都有一个可以学习的偏置值,只用来路由,不参与其他计算。对于过载的专家,bias减小以降低被选择的概率;对于欠载的专家,bias增大以提高被选择的概率

互补序列辅助损失

f_i 是分配给专家 i 的 token 比例,p_i 是路由给专家 i 的平均门控分数,N_r 是专家数量,\alpha 是平衡系数。这个损失鼓励专家被均匀使用。

限制每一个token被分配的专家数目

这里其实强调的就是传统的MoE架构,比如deepseek v2版本中,引入了一个叫做专家容量的参数,限制每一个专家被分配的token数目,如果某一个专家已经到达了处理容量上限,那么下一个被分配的token将不被使用专家计算,而是直接跳过该专家,使用残差链接处理,也就是这里提到的"Token被丢弃"

多Token预测,MTP

MTP模块

MTP 不改变主模型的主体结构(如 Transformer 层、MoE 层等),而是在输出端增加额外的预测头(prediction heads)。假设我们设定预测深度为 D,即每个位置除了预测下一个 token 外,还额外预测未来第 2, 3, \dots, D 个 token。

复制代码
 标准:  输入 t 个token,预测第 t+1 个token
 MTP:  输入 t 个token,同时预测第 t+1, t+2, ..., t+D 个token
 ​
 D = 深度(Depth),DeepSeek-V3 中 D=4
  • 原始的输出头(称为 head₁)负责预测下一个 token。

  • 新增的 D-1 个独立输出头(head₂ 到 headₕ)分别负责预测未来第 2 至第 D 个 token。

  • 这些额外的头可以共享底层的 Transformer 表示,也可以有自己的轻量级参数(如一层线性变换 + softmax)。

在 DeepSeek-V3 的实现中,MTP 模块被设计为与主模型共享所有专家参数,仅增加少量额外的输出投影层,因此参数开销极小。

MTP训练目标

MTP 的额外头可以天然地用作投机采样中的草稿模型。在推理时,可以用 head₁ 生成下一个 token,同时用 head₂ 预测未来第二个 token,从而实现一次前向传播产出多个 token 的猜测,配合目标模型验证加速生成。

相关推荐
大模型最新论文速读14 小时前
05-15 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
数智工坊14 小时前
【DINOv2论文阅读】:无需监督的通用视觉特征提取器——机器人VLA模型的“眼睛“基石
论文阅读·人工智能·深度学习·计算机视觉·transformer
数智工坊20 小时前
【SigLIP论文阅读】:重新定义视觉-语言预训练的损失函数——VLA模型的“语言理解“基石
论文阅读·人工智能·算法·计算机视觉·语言模型
数智工坊21 小时前
面向具身操作的视觉-语言-动作模型:让机器人真正理解并执行人类指令
论文阅读·人工智能·算法·机器人
数智工坊21 小时前
【GPT-4V全面评估】:大语言多模态模型的黎明时代
论文阅读·人工智能·深度学习·计算机视觉·transformer
数智工坊21 小时前
MPC引导的策略搜索:用模型预测控制训练安全高效的无人机深度控制策略
论文阅读·人工智能·算法·无人机
Adios7942 天前
Optimal Transport Aggregation for Visual Place Recognition VPR论文阅读
论文阅读·计算机视觉
Chunyyyen2 天前
【第四十五周】论文阅读
论文阅读
ʜᴇɴʀʏ2 天前
AAAI 2025 | DuSSS:基于双语义相似性监督的半监督医学图像分割
论文阅读·机器学习
STLearner2 天前
CVPR 2026 | 时空时序论文总结(天气预报,交通模拟,域自适应等)
论文阅读·人工智能·深度学习·神经网络·机器学习·计算机视觉·数据挖掘