【Deepseek基础篇】--v3基本架构

目录

MOE参数

1.基本架构

[1.1. Multi-Head Latent Attention多头潜在注意力](#1.1. Multi-Head Latent Attention多头潜在注意力)

[1.2.无辅助损失负载均衡的 DeepSeekMoE](#1.2.无辅助损失负载均衡的 DeepSeekMoE)

2.多标记预测

[2.1. MTP 模块](#2.1. MTP 模块)


论文地址:https://arxiv.org/pdf/2412.19437

DeepSeek-V3 是一款采用 Mixture-of-Experts(MoE)架构的大型语言模型,其核心参数配置如下:【大模型理论篇】--Mixture of Experts架构-CSDN博客

  • 模型层数:61 层

  • 隐藏层维度:7168

  • 前馈网络维度:18432

  • 注意力头数:128

  • 词汇表大小:129280

  • 最大位置嵌入:163840

    该模型通过精细的架构设计,实现了在计算效率和性能上的平衡。

MOE参数

参数 描述
MoE 层频率 1--每一层都是 MoE 层
共享专家数 1
路由专家数 256
每个 Token 选择的专家数 8
MoE 专家前馈网络维度 2048
总 MoE 层数 58 层(第 4 层至第 61 层)
每层专家总数 257 个(1 个共享专家 + 256 个路由专家)
模型总专家数 14,906 个(257 个专家 × 58 层)
每层活跃专家 9 个(1 个共享专家 + 8 个路由专家)
整个模型的活跃专家 522 个(9 个活跃专家 × 58 层)
计算效率高 每个 Token 只需计算少量专家,降低了计算成本
参数利用率高 总参数量 6,710 亿,实际计算的激活参数仅约 370 亿
专家专精化 路由机制使得专家专注于特定特征,提高模型性能
路由专家(Routed Experts)
- 选择性激活 按需激活,利用门控机制(如基于亲和度分数的 Top-K 选择)决定哪些专家处理当前 Token
- 专精化处理 每个路由专家擅长处理特定类型的输入或特征,实现专精化
- 稀疏计算 仅激活部分专家,提高计算效率
- 负载均衡 确保不同专家在不同输入上均衡被激活,避免过载
共享专家(Shared Experts)
- 全局参与 始终参与所有输入的处理,贡献通用知识
- 促进泛化 捕捉数据中的普遍模式,减少过拟合风险
- 提高稳定性 提供稳定的基础,即使路由机制不完美时,也能有可靠的输出

1.基本架构

DeepSeek-V3模型的架构,包括

  1. 基本架构、
  2. 多头潜在注意力机制(MLA)、
  3. DeepSeekMoE
  4. 多token预测(MTP)训练目标。

DeepSeek-V3的架构设计在高效推理和经济高效的训练之间取得了良好的平衡,并通过引入辅助损失免费负载均衡策略和多token预测训练目标,进一步提升了模型的性能。

DeepSeek-V3模型架构的核心特点是:采用Multi-head Latent Attention (MLA) 以提高推理效率,采用DeepSeekMoE以降低训练成本。此外,还引入了多token预测(MTP)训练目标,以提升模型性能。

1.1. Multi-Head Latent Attention多头潜在注意力

  • >>核心思想:通过低秩联合压缩注意力键和值来减少推理过程中的键值缓存 (KV cache)。
  • >> 具体方法:对注意力键和值进行低秩压缩,生成压缩的潜在向量 ()。 对注意力查询也进行低秩压缩,生成压缩的潜在向量 ()。 利用旋转位置编码 (RoPE) 生成解耦的键和查询 (, )。最终将查询、键和值结合起来生成最终的注意力输出 ()。
  • >> 优势:仅需缓存压缩的潜在向量和解耦的键/查询,显著减少了KV缓存,同时保持了与标准多头注意力 (MHA) 相当的性能。

具体参数:

对 于 注 意 力 查 询 , 我 们 也 执 行 低 秩 压 缩 , 这 可 以 在 训 练 期 间 减 少 激 活 内 存:

最 终 , 注 意 力 查 询 、 键 () 和 值 ( ) 被 组 合 起 来 以 生 成 最 终 的 注 意 力 输 出 uT : 。

1.2.无辅助损失负载均衡的 DeepSeekMoE

对于前馈网络(FFNs),DeepSeek-V3 采用 DeepSeekMoE 架构(Dai et al., 2024)。与 GShard(Lepikhin et al., 2021)等传统 MoE 架构相比,DeepSeekMoE 使用更细粒度的专家(experts),并将部分专家隔离为共享专家。设 为第 𝑡 个 token 的 FFN 输入,我们计算其 FFN 输出 如下:

无 辅 助 损 失 的 负 载 均 衡:

对于 MoE 模型,专家负载的不均衡会导致路由崩溃(Shazeer et al., 2017),并在专家并行的场景中降低计算效率。传统的解决方案通常依赖于辅助损失(Fedus et al., 2021;Lepikhin et al., 2021)来避免负载不均衡。然而,过大的辅助损失会损害模型的性能(Wang et al., 2024a)。为了在负载均衡和模型性能之间实现更好的平衡,我们开创了一种无辅助损失的负载均衡策略(Wang et al., 2024a),以确保负载均衡。具体来说,我们为每个专家引入一个偏置项 ,并将其添加到对应的亲和度分数 中,以确定 top-K 路由:

注意,偏置项仅用于路由。门控值(gating value),即将与 FFN 输出相乘的值,仍然来自于原始的亲和度分数 。 在训练过程中,我们会持续监控每个训练步骤中整个批次的专家负载。在每个步骤结束时,如果对应的专家超载,我们将偏置项减少 𝛾;如果对应的专家负载不足,我们将其增加 𝛾,其中 𝛾 是一个超参数,称为偏置更新速度(bias update speed)。通过这种动态调整,DeepSeek-V3 在训练过程中保持专家负载平衡,并且相比于仅通过纯辅助损失来鼓励负载平衡的模型,能够实现更好的性能。

**互 补 序 列 级 辅 助 损 失:**尽管 DeepSeek-V3 主要依赖于无辅助损失策略来实现负载平衡,但为了防止单个序列内部出现极端的不平衡,我们还使用了一个互补的序列级平衡损失:

  1. 平衡因子 𝛼 是一个超参数,对于 DeepSeek-V3 来说将赋予一个极小的值;
  2. 1(·) 表示指示函数;
  3. 𝑇 表示序列中的标记数。序列级平衡损失鼓励每个序列的专家负载保持平衡。

多 标 记 预 测 ( MTP) 实 现 方 式 的 示 意 图 。 在 每 个 深 度 , 我 们 为 每 个 标 记 的 预 测 保 留 完 整 的 因 果 链 。

节点限制路由:与 DeepSeek-V2 使用的设备限制路由类似,DeepSeek-V3 也使用了一种受限路由机制,以限制训练过程中的通信成本。简而言之,我们确保每个标记最多只会发送到 𝑀 个节点,这些节点是根据分布在每个节点上的专家的前 个亲和度分数的总和来选择的。在这个约束下,我们的 MoE 训练框架几乎可以实现完全的计算-通信重叠。

无Token丢弃:由于有效的负载平衡策略,DeepSeek-V3 在整个训练过程中保持良好的负载平衡。因此,DeepSeek-V3 在训练期间不会丢弃任何Token。此外,我们还实施了特定的部署策略,以确保推理过程中的负载平衡,因此 DeepSeek-V3 在推理过程中也不会丢弃Token。


2.多标记预测

受到 Gloeckle 等人(2024)的启发,我们为 DeepSeek-V3 设定了一个多标记预测(MTP)目标,将预测范围扩展到每个位置的多个未来标记。一方面,MTP 目标可以密集化训练信号,可能提高数据效率。另一方面,MTP 可以使模型预先规划其表示,以便更好地预测未来的标记。图 3 展示了我们的 MTP 实现。与 Gloeckle 等人(2024)通过独立输出头并行预测 𝐷 个额外标记不同,我们依次预测额外的标记,并在每个预测深度保持完整的因果链条。在本节中,我们介绍了 MTP 实现的细节。

2.1. MTP 模块

MTP 实现使用 𝐷 个顺序模块来预测 𝐷 个额外的标记。第 𝑘 个 MTP 模块由一个共享嵌入层 Emb(·)、一个共享输出头 OutHead(·)、一个 Transformer 块 TRM𝑘 (·) 和一个投影矩阵 𝑀𝑘 ∈ 组成。对于第 𝑖 个输入标记 ,在第 𝑘 个预测深度,我们首先将第 𝑖 个标记在第 (𝑘−1) 深度的表示 ∈ 与第 (𝑖+𝑘) 个标记的嵌入结合,并进行线性投影:

其中,[·; ·] 表示拼接操作。特别地,当 𝑘 = 1 时,指的是由主模型给出的表示。需要注意的是,对于每个 MTP 模块,它的嵌入层与主模型共享。组合后的 作为 Transformer 块第 𝑘 深度的输入,以生成当前深度的输出表示

其中,𝑇 表示输入序列的长度,𝑖:𝑗 表示切片操作(包括左右边界)。最后,以 作为输入,共享的输出头将计算第 𝑘 个附加预测 token 的概率分布 ,其中 𝑉 是词汇表的大小:

输出头 OutHead(·) 将表示映射到 logits,并随后应用 Softmax(·) 函数来计算第 𝑘 个附加 token 的预测概率。同时,对于每个 MTP 模块,它的输出头与主模型共享。我们保持预测的因果链的原则与 EAGLE (Li et al., 2024b) 类似,但它的主要目标是推测解码 (Leviathan et al., 2023; Xia et al., 2023),而我们利用 MTP 来改进训练。

MTP 训练目标。在每个预测深度,我们计算交叉熵损失

其中,𝑇 表示输入序列的长度, 表示第 𝑖 个位置的真实标记, 表示给定 𝑘-th MTP 模块的预测概率。最后,我们计算所有深度的 MTP 损失的平均值,并将其乘以一个权重因子 𝜆,得到最终的 MTP 损失 LMTP,该损失作为 DeepSeek-V3 的附加训练目标:

MTP 在推理中的应用。我们的 MTP 策略主要旨在提升主模型的性能,因此,在推理过程中,我们可以直接丢弃 MTP 模块,主模型可以独立且正常地运行。此外,我们还可以将这些 MTP 模块重新用于推测解码,以进一步提升生成的延迟表现。

相关推荐
群联云防护小杜1 小时前
源IP泄露后如何涅槃重生?高可用架构与自动化防御体系设计
人工智能·物联网·tcp/ip·架构·自动化·音视频
hnlgzb3 小时前
安卓应用架构模式 MVC MVP MVVM有什么区别?
android·架构·mvc
小杨4048 小时前
springboot框架项目应用实践六(参数校验validation基础)
spring boot·后端·架构
小天努力学java10 小时前
【软考-架构】3.3、模式分解-事务并发-封锁协议
架构
Swift社区14 小时前
「AI 加持的高效架构」高并发场景下的服务器成本优化
服务器·人工智能·架构
编程就是如此16 小时前
微服务新手入门
微服务·云原生·架构
暮色妖娆丶17 小时前
利用 Caffeine 缓存不适合存储在配置中心的配置项
java·后端·架构
小马爱打代码18 小时前
多级缓存架构实战:Caffeine+Redis
redis·缓存·架构
DemonAvenger18 小时前
Go sync.Pool 的陷阱与正确用法:从踩坑到最佳实践
架构·go