
一、总体定位与核心数据
DeepSeek-V4 系列包含两个 MoE 模型:
| 指标 | V4-Pro | V4-Flash |
|---|---|---|
| 总参数量 | 1.6T | 284B |
| 激活参数量 | 49B | 13B |
| 上下文长度 | 1M tokens | 1M tokens |
| 预训练数据 | >32T tokens | >32T tokens |
核心效率突破:在 1M 上下文场景下,V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%,KV Cache 仅为 10% 。这不是渐进式优化,而是量级跃迁。
二、五大基础研究创新点深度剖析
创新 1:Manifold-Constrained Hyper-Connections (mHC) --- 重新定义残差连接
问题背景: 标准 Hyper-Connections (HC) 将残差流宽度从 Rd 扩展到 Rnhc×d,引入映射矩阵 Bl 做残差变换。但在深层堆叠时频繁出现数值不稳定,严重阻碍了 HC 的规模化。
核心创新 --- 双随机矩阵流形约束: mHC 将残差映射矩阵 Bl 约束到 Birkhoff 多面体(双随机矩阵流形)上:
Bl∈M≜{M∈Rn×n∣M1n=1n, 1nTM=1nT, M≥0}
为什么这是深刻的:
- 谱范数上界为 1 :保证残差变换是非扩张的(non-expansive),前向传播和反向传播的信号幅度不会逐层膨胀
- 乘法封闭性:双随机矩阵集合对乘法封闭,即多层 mHC 级联后仍然稳定 ------ 这是深层网络中极其优雅的数学性质
- 输入 / 输出映射 Al,Cl 通过 Sigmoid 约束为非负有界,避免信号对消
动态参数化 + Sinkhorn-Knopp 投影: 三个映射矩阵被分解为动态(输入依赖)+ 静态(偏置)两部分,原始参数通过 Sinkhorn-Knopp 迭代 (20 步)投影到双随机矩阵流形上。这在深度学习中属于流形优化的巧妙工程化应用。
研究意义: mHC 提出了一条在不改变内层设计的前提下,通过残差流宽度扩展来增加模型容量的新路径,且解决了原始 HC 的稳定性瓶颈。训练时 wall-time 开销仅 6.7%。
创新 2:CSA + HCA 混合注意力架构 --- 百万 Token 上下文的算力根基
这是本文最核心的架构创新,也是实现 1M 上下文的关键。
2.1 Compressed Sparse Attention (CSA)
CSA 是一个压缩 + 稀疏的双重加速机制:
第一步:Token 级 KV 压缩。 每 m 个 token 的 KV 表示压缩为 1 个条目。创新点在于跨块重叠压缩------ 每个压缩条目 CiComp由当前块的 Ca 和前一块的 Cb 共 2m 个条目加权得到:
CiComp=∑j=mim(i+1)−1Sja⊙Cja+∑j=m(i−1)mi−1Sjb⊙Cjb
权重通过 learnable positional biases 和 Softmax 计算。这种重叠窗口设计使压缩边界处的信息损失最小化。
第二步:Lightning Indexer 稀疏选择。 在压缩后的 KV 序列上,用轻量级多头 indexer 对每个 query 算出 index score,选 top-k 个压缩块做核心注意力。indexer 的 QK 计算在 FP4 精度下进行。
第三步:Shared KV MQA + Grouped Output Projection。 压缩 KV 同时作为 key 和 value(Shared KV),并用分组输出投影降低 c⋅nh 维到 d 维的计算成本。
2.2 Heavily Compressed Attention (HCA)
HCA 采用极端压缩比 m′≫m,将每 m′ 个 token 压缩为 1 个条目,但不做稀疏选择 ------ 每个 query 直接 attend 所有压缩 KV 条目。这是一种用极端压缩换取全局感知的设计。
2.3 混合交错架构的精妙
CSA 层和 HCA 层交错排列。这种设计的深层逻辑:
| 特性 | CSA | HCA |
|---|---|---|
| 压缩比 | m(中等) | m′≫m(极端) |
| 稀疏选择 | 有(top-k) | 无(全局) |
| 信息粒度 | 较细 | 极粗 |
| 作用 | 精确定位关键上下文 | 维持全局语义连贯 |
两者互补:CSA 保证精细检索能力 ,HCA 保证全局上下文覆盖。
2.4 关键辅助设计
- Sliding Window Attention 分支:因为压缩不可避免地丢失了当前压缩块内的局部信息,每个 query 额外维护最近 nwin 个 token 的未压缩 KV
- Partial RoPE :对 query/KV 的最后 64 维应用 RoPE,对 attention output 也做逆 RoPE(位置 −i),使输出携带相对位置编码
- Attention Sink:为每个注意力头设可学习的 sink logit zh′,使注意力总分数可以不等于 1,甚至接近 0------ 允许模型 "不关注任何内容"
效率数据: 以 BF16 GQA8(head dim=128)为基线,V4 在 1M 上下文下 KV Cache 缩减至基线的约 2% 。
创新 3:Muon 优化器的工程化落地 --- 首次在万亿参数 MoE 上验证
DeepSeek-V4 是首个在超大规模 MoE 模型上成功应用 Muon 优化器的工作。
Muon 核心: 对每个逻辑独立权重矩阵,通过 Newton-Schulz 迭代近似正交化 momentum buffer,然后 rescale 更新的 RMS。
关键创新 --- Hybrid Newton-Schulz 迭代: 10 步迭代分两阶段:
- 前 8 步:(a,b,c)=(3.4445,−4.7750,2.0315),驱动奇异值快速收敛到 1
- 后 2 步:(a,b,c)=(2,−1.5,0.5),精确稳定奇异值
与 ZeRO 的兼容性挑战: Muon 需要完整梯度矩阵,而 ZeRO 分片存储参数。解决方案:
- Dense 参数 :限制 ZeRO 并行度上限,用背包算法分配矩阵到各 rank
- MoE 参数:将所有 expert 的 down/up/gate 投影矩阵分别 flatten 后均匀切分
- Newton-Schulz 在 BF16 下稳定,MoE 梯度的跨 rank 同步量化为 BF16,通信量减半
- 用 all-to-all + 本地 FP32 求和替代传统 reduce-scatter,避免低精度加法器累积误差
创新 4:FP4 量化感知训练 (QAT) --- 打通训练与部署的精度鸿沟
量化目标: MoE expert 权重 + CSA Indexer 的 QK 路径。
核心洞察 --- 无损 FP4→FP8 反量化: FP8 (E4M3) 比 FP4 (E2M1) 多 2 位指数,在 FP4 子块(1×32)的 scale 比率不超过阈值时,细粒度 scale 信息可被 FP8 的扩展动态范围完全吸收。实验验证当前权重满足此条件。
工程优雅之处: 整个 QAT pipeline 完全复用 已有的 FP8 训练框架,无需修改反向传播。RL 推理 /rollout 阶段直接使用真实 FP4 权重,确保采样行为与线上部署完全一致。同时 CSA Indexer 的 index score 从 FP32 量化到 BF16,top-k 选择器加速 2×,KV entry 召回率保持 99.7%。
创新 5:端到端 Batch-Invariant & Deterministic 内核 --- 训练可重复性的工程极限
这不是传统意义的 "算法创新",但在工程科学层面极具价值。
Batch Invariance (batch 不变性):任意 token 的输出在 batch 内位置无关时保持逐位一致。
- Attention :放弃 split-KV(会破坏 batch invariance),设计双内核策略 :第一个内核在单 SM 内完成整个序列的注意力(保证完整 wave 吞吐),第二个内核处理最后的部分 wave(使用分布式共享内存跨 SM 通信),两个内核累积顺序完全一致
- 矩阵乘法:全面替换 cuBLAS 为 DeepGEMM,放弃 split-k 技术(破坏 batch invariance),通过专项优化使性能匹敌甚至超越标准 split-k
- mHC 矩阵乘:输出维度仅 24,被迫使用 split-k 但分别输出每个 split part,再用确定性 reduction 内核归约
Determinism(确定性):消除所有 atomicAdd 引入的非确定性 ------ 为 Attention Backward 分配每 SM 独立累积 buffer;为 MoE Backward 设计 token 顺序预处理 + 多 rank buffer 隔离。
三、基础设施层面的重要创新
3.1 细粒度 EP 通信计算重叠
核心洞察:MoE 层中通信总时间 < 计算总时间。将 Dispatch + Linear1 + SwiGLU + Combine + Linear2 融合为流水线内核,理论加速 1.92×(对比 Comet 的 1.42×)。
3.2 TileLang DSL 内核开发
- Host Codegen :将宿主端逻辑编译为生成代码,per-invocation 验证开销从数十微秒降至 <1μs
- Z3 SMT Solver 集成:将 tensor 索引表达式翻译为 QF_NIA(量化器无关非线性整数算术),解锁向量化、barrier 插入等高级优化
3.3 Post-Training 基础设施
- 高效多教师 OPD:全词表 On-Policy Distillation,支持无限数量的万亿参数教师模型。教师权重按需从分布式存储加载,仅缓存 last-layer hidden states 而非 logits(词表 >100K 时 logits 不可承受),训练时再通过 prediction head 重建
- Token 粒度 WAL:每生成一个 token 立即写 Write-Ahead Log,抢占 / 故障恢复时无需重新生成(重新生成会引入长度偏差)
- DSec 沙箱平台:单集群管理数十万并发沙箱实例,统一 API 抽象 4 种执行基底(Function Call / Container /microVM/fullVM),支持 3FS 上的 EROFS 按需加载和 overlaybd 链式快照
四、训练稳定性工程
两个精巧的稳定性 trick:
| 技巧 | 机制 | 作用 |
|---|---|---|
| Anticipatory Routing | MoE 使用前一层的 hidden states(而非当前层)计算路由分数 | 打破路由抖动→loss spike 的正反馈环 |
| SwiGLU Clamping | 在 SwiGLU 激活后对结果 clamp 到 [−M,M] | 防止极端激活值引发梯度爆炸 |
MoE 路由激活函数从 Sigmoid 改为 Softplus(⋅),初始层的 dense FFN 替换为 Hash Routing MoE。
五、关键实验结论
| 维度 | V4-Pro-Max 表现 | 对标最强 |
|---|---|---|
| SimpleQA-Verified | 57.9(开源 SOTA,领先第二名 20pp) | Gemini-3.1-Pro: 75.6 |
| Codeforces | 3206(Codeforces 全球第 23 名) | GPT-5.4: 3168 |
| LiveCodeBench | 93.5 | Gemini-3.1-Pro: 91.7 |
| Formal Math (Putnam-2025) | 120/120(满分) | --- |
| MRCR 1M | 83.5 | Claude Opus 4.6: 92.9 |
| SWE-Verified | 80.6 | Claude Opus 4.6: 80.8 |
六、总结:创新图谱
scss
DeepSeek-V4 创新层次
├── 理论层
│ ├── mHC:双随机矩阵流形约束 → 深层残差稳定性
│ └── CSA/HCA:压缩+稀疏的混合注意力 → O(n/m) 复杂度
├── 算法层
│ ├── Muon 优化器万亿参数落地(Hybrid Newton-Schulz + ZeRO 兼容)
│ ├── FP4 QAT 无损反量化 pipeline
│ └── 全词表多教师 On-Policy Distillation
├── 系统层
│ ├── 端到端 Batch-Invariant & Deterministic 内核
│ ├── 细粒度 EP 通信计算重叠(1.92× 理论加速)
│ ├── TileLang + Z3 SMT Solver 内核编译优化
│ └── Token-granular WAL 容错 rollout
└── 产品层
├── 百万 Token 上下文常态化支持
├── DSec 十万级并发沙箱平台
└── 多模式推理努力(Non-Think / High / Max)
最深刻的 takeaway: DeepSeek-V4 的核心叙事不是 "模型更大更强",而是用架构创新换取效率的量级提升------ 在性能追平甚至超越前代的同时,把推理 FLOPs 和 KV Cache 砍掉 70-90%。这使百万 Token 上下文从 "理论可能" 变为 "工程可用",为 test-time scaling 和长程 Agent 任务打开了实质性空间。