【Deepseek基础篇】--v3基本架构

MOE参数

1.基本架构

[1.1. Multi-Head Latent Attention多头潜在注意力](#1.1. Multi-Head Latent Attention多头潜在注意力)

[1.2.无辅助损失负载均衡的 DeepSeekMoE](#1.2.无辅助损失负载均衡的 DeepSeekMoE)

2.多标记预测

[2.1. MTP 模块](#2.1. MTP 模块)

论文地址：https://arxiv.org/pdf/2412.19437

DeepSeek-V3 是一款采用 Mixture-of-Experts（MoE）架构的大型语言模型，其核心参数配置如下：【大模型理论篇】--Mixture of Experts架构-CSDN博客

模型层数：61 层
隐藏层维度：7168
前馈网络维度：18432
注意力头数：128
词汇表大小：129280
最大位置嵌入：163840

该模型通过精细的架构设计，实现了在计算效率和性能上的平衡。

MOE参数

参数描述

MoE 层频率 1--每一层都是 MoE 层

共享专家数 1

路由专家数 256

每个 Token 选择的专家数 8

MoE 专家前馈网络维度 2048

总 MoE 层数 58 层（第 4 层至第 61 层）

每层专家总数 257 个（1 个共享专家 + 256 个路由专家）

模型总专家数 14,906 个（257 个专家 × 58 层）

每层活跃专家 9 个（1 个共享专家 + 8 个路由专家）

整个模型的活跃专家 522 个（9 个活跃专家 × 58 层）

计算效率高每个 Token 只需计算少量专家，降低了计算成本

参数利用率高总参数量 6,710 亿，实际计算的激活参数仅约 370 亿

专家专精化路由机制使得专家专注于特定特征，提高模型性能

路由专家（Routed Experts）

- 选择性激活按需激活，利用门控机制（如基于亲和度分数的 Top-K 选择）决定哪些专家处理当前 Token

- 专精化处理每个路由专家擅长处理特定类型的输入或特征，实现专精化

- 稀疏计算仅激活部分专家，提高计算效率

- 负载均衡确保不同专家在不同输入上均衡被激活，避免过载

共享专家（Shared Experts）

- 全局参与始终参与所有输入的处理，贡献通用知识

- 促进泛化捕捉数据中的普遍模式，减少过拟合风险

- 提高稳定性提供稳定的基础，即使路由机制不完美时，也能有可靠的输出

参数	描述
MoE 层频率	1--每一层都是 MoE 层
共享专家数	1
路由专家数	256
每个 Token 选择的专家数	8
MoE 专家前馈网络维度	2048
总 MoE 层数	58 层（第 4 层至第 61 层）
每层专家总数	257 个（1 个共享专家 + 256 个路由专家）
模型总专家数	14,906 个（257 个专家 × 58 层）
每层活跃专家	9 个（1 个共享专家 + 8 个路由专家）
整个模型的活跃专家	522 个（9 个活跃专家 × 58 层）
计算效率高	每个 Token 只需计算少量专家，降低了计算成本
参数利用率高	总参数量 6,710 亿，实际计算的激活参数仅约 370 亿
专家专精化	路由机制使得专家专注于特定特征，提高模型性能
路由专家（Routed Experts）
- 选择性激活	按需激活，利用门控机制（如基于亲和度分数的 Top-K 选择）决定哪些专家处理当前 Token
- 专精化处理	每个路由专家擅长处理特定类型的输入或特征，实现专精化
- 稀疏计算	仅激活部分专家，提高计算效率
- 负载均衡	确保不同专家在不同输入上均衡被激活，避免过载
共享专家（Shared Experts）
- 全局参与	始终参与所有输入的处理，贡献通用知识
- 促进泛化	捕捉数据中的普遍模式，减少过拟合风险
- 提高稳定性	提供稳定的基础，即使路由机制不完美时，也能有可靠的输出

1.基本架构

DeepSeek-V3模型的架构，包括

基本架构、
多头潜在注意力机制(MLA)、
DeepSeekMoE
多token预测(MTP)训练目标。

DeepSeek-V3的架构设计在高效推理和经济高效的训练之间取得了良好的平衡，并通过引入辅助损失免费负载均衡策略和多token预测训练目标，进一步提升了模型的性能。

DeepSeek-V3模型架构的核心特点是：采用Multi-head Latent Attention (MLA) 以提高推理效率，采用DeepSeekMoE以降低训练成本。此外，还引入了多token预测(MTP)训练目标，以提升模型性能。

1.1. Multi-Head Latent Attention多头潜在注意力

>>核心思想：通过低秩联合压缩注意力键和值来减少推理过程中的键值缓存 (KV cache)。
>> 具体方法：对注意力键和值进行低秩压缩，生成压缩的潜在向量 ()。对注意力查询也进行低秩压缩，生成压缩的潜在向量 ()。利用旋转位置编码 (RoPE) 生成解耦的键和查询 (, )。最终将查询、键和值结合起来生成最终的注意力输出 ()。
>> 优势：仅需缓存压缩的潜在向量和解耦的键/查询，显著减少了KV缓存，同时保持了与标准多头注意力 (MHA) 相当的性能。

具体参数：

对于注意力查询，我们也执行低秩压缩，这可以在训练期间减少激活内存：

最终，注意力查询、键（）和值 ( ) 被组合起来以生成最终的注意力输出 uT : 。

1.2.无辅助损失负载均衡的 DeepSeekMoE

对于前馈网络（FFNs），DeepSeek-V3 采用 DeepSeekMoE 架构（Dai et al., 2024）。与 GShard（Lepikhin et al., 2021）等传统 MoE 架构相比，DeepSeekMoE 使用更细粒度的专家（experts），并将部分专家隔离为共享专家。设为第 𝑡 个 token 的 FFN 输入，我们计算其 FFN 输出如下：

无辅助损失的负载均衡：

对于 MoE 模型，专家负载的不均衡会导致路由崩溃（Shazeer et al., 2017），并在专家并行的场景中降低计算效率。传统的解决方案通常依赖于辅助损失（Fedus et al., 2021；Lepikhin et al., 2021）来避免负载不均衡。然而，过大的辅助损失会损害模型的性能（Wang et al., 2024a）。为了在负载均衡和模型性能之间实现更好的平衡，我们开创了一种无辅助损失的负载均衡策略（Wang et al., 2024a），以确保负载均衡。具体来说，我们为每个专家引入一个偏置项，并将其添加到对应的亲和度分数中，以确定 top-K 路由：

注意，偏置项仅用于路由。门控值（gating value），即将与 FFN 输出相乘的值，仍然来自于原始的亲和度分数。在训练过程中，我们会持续监控每个训练步骤中整个批次的专家负载。在每个步骤结束时，如果对应的专家超载，我们将偏置项减少 𝛾；如果对应的专家负载不足，我们将其增加 𝛾，其中 𝛾 是一个超参数，称为偏置更新速度（bias update speed）。通过这种动态调整，DeepSeek-V3 在训练过程中保持专家负载平衡，并且相比于仅通过纯辅助损失来鼓励负载平衡的模型，能够实现更好的性能。

**互补序列级辅助损失：**尽管 DeepSeek-V3 主要依赖于无辅助损失策略来实现负载平衡，但为了防止单个序列内部出现极端的不平衡，我们还使用了一个互补的序列级平衡损失：

平衡因子 𝛼 是一个超参数，对于 DeepSeek-V3 来说将赋予一个极小的值；
1(·) 表示指示函数；
𝑇 表示序列中的标记数。序列级平衡损失鼓励每个序列的专家负载保持平衡。

多标记预测（ MTP）实现方式的示意图。在每个深度，我们为每个标记的预测保留完整的因果链。

节点限制路由：与 DeepSeek-V2 使用的设备限制路由类似，DeepSeek-V3 也使用了一种受限路由机制，以限制训练过程中的通信成本。简而言之，我们确保每个标记最多只会发送到 𝑀 个节点，这些节点是根据分布在每个节点上的专家的前个亲和度分数的总和来选择的。在这个约束下，我们的 MoE 训练框架几乎可以实现完全的计算-通信重叠。

无Token丢弃：由于有效的负载平衡策略，DeepSeek-V3 在整个训练过程中保持良好的负载平衡。因此，DeepSeek-V3 在训练期间不会丢弃任何Token。此外，我们还实施了特定的部署策略，以确保推理过程中的负载平衡，因此 DeepSeek-V3 在推理过程中也不会丢弃Token。

2.多标记预测

受到 Gloeckle 等人（2024）的启发，我们为 DeepSeek-V3 设定了一个多标记预测（MTP）目标，将预测范围扩展到每个位置的多个未来标记。一方面，MTP 目标可以密集化训练信号，可能提高数据效率。另一方面，MTP 可以使模型预先规划其表示，以便更好地预测未来的标记。图 3 展示了我们的 MTP 实现。与 Gloeckle 等人（2024）通过独立输出头并行预测 𝐷 个额外标记不同，我们依次预测额外的标记，并在每个预测深度保持完整的因果链条。在本节中，我们介绍了 MTP 实现的细节。

2.1. MTP 模块

MTP 实现使用 𝐷 个顺序模块来预测 𝐷 个额外的标记。第 𝑘 个 MTP 模块由一个共享嵌入层 Emb(·)、一个共享输出头 OutHead(·)、一个 Transformer 块 TRM𝑘 (·) 和一个投影矩阵 𝑀𝑘 ∈ 组成。对于第 𝑖 个输入标记，在第 𝑘 个预测深度，我们首先将第 𝑖 个标记在第 (𝑘−1) 深度的表示 ∈ 与第 (𝑖+𝑘) 个标记的嵌入结合，并进行线性投影：

其中，[·; ·] 表示拼接操作。特别地，当 𝑘 = 1 时，指的是由主模型给出的表示。需要注意的是，对于每个 MTP 模块，它的嵌入层与主模型共享。组合后的作为 Transformer 块第 𝑘 深度的输入，以生成当前深度的输出表示：

其中，𝑇 表示输入序列的长度，𝑖:𝑗 表示切片操作（包括左右边界）。最后，以作为输入，共享的输出头将计算第 𝑘 个附加预测 token 的概率分布 ∈ ，其中 𝑉 是词汇表的大小：

输出头 OutHead(·) 将表示映射到 logits，并随后应用 Softmax(·) 函数来计算第 𝑘 个附加 token 的预测概率。同时，对于每个 MTP 模块，它的输出头与主模型共享。我们保持预测的因果链的原则与 EAGLE (Li et al., 2024b) 类似，但它的主要目标是推测解码 (Leviathan et al., 2023; Xia et al., 2023)，而我们利用 MTP 来改进训练。

MTP 训练目标。在每个预测深度，我们计算交叉熵损失：

其中，𝑇 表示输入序列的长度，表示第 𝑖 个位置的真实标记，表示给定 𝑘-th MTP 模块的预测概率。最后，我们计算所有深度的 MTP 损失的平均值，并将其乘以一个权重因子 𝜆，得到最终的 MTP 损失 LMTP，该损失作为 DeepSeek-V3 的附加训练目标：

MTP 在推理中的应用。我们的 MTP 策略主要旨在提升主模型的性能，因此，在推理过程中，我们可以直接丢弃 MTP 模块，主模型可以独立且正常地运行。此外，我们还可以将这些 MTP 模块重新用于推测解码，以进一步提升生成的延迟表现。