DeepSeek-V4 技术硬核解析
论文原文:DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
发布机构:DeepSeek-AI
发布时间:2026年4月24日
原文链接:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
一、核心概述
1.1 模型定位
DeepSeek-V4 是 DeepSeek AI 推出的新一代大语言模型系列,主题为 "迈向高效的百万 Token 上下文智能"。该系列首次实现了百万 token 上下文的高效处理,使长文档处理从"技术上可行"变为"经济上标配"。
1.2 模型规格
| 参数 | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|
| 总参数量 | 284B | 1.6T (16,000亿) |
| 激活参数 | 13B | 49B |
| 架构类型 | MoE | MoE |
| 训练数据量 | 32T tokens | 33T tokens |
| 上下文长度 | 1M tokens | 1M tokens |
| Transformer 层数 | 43 | 61 |
| 隐藏维度 d | 4096 | 7168 |
| 词表大小 | 128K | 128K |
| 路由专家数 | 256 | 384 |
| 每 token 激活专家 | 6 | 6 |
| 定位 | 高效经济型 | 旗舰级 |
1.3 核心创新一览
| 创新点 | 类型 | 核心价值 |
|---|---|---|
| CSA (压缩稀疏注意力) | 注意力机制 | 稀疏选择,降低计算量 |
| HCA (重压缩注意力) | 注意力机制 | 激进压缩,高效处理长序列 |
| mHC (流形约束超连接) | 架构设计 | 稳定深层网络训练 |
| Muon 优化器 | 训练优化 | 加速收敛,提升稳定性 |
| MegaMoE 内核 | 工程实现 | 推理加速 1.50~1.96× |
| OPD (策略蒸馏) | 后训练 | 多专家知识统一 |
二、架构创新详解
2.1 整体架构
DeepSeek-V4 沿用 Transformer 架构 + Multi-Token Prediction (MTP) 模块,并引入三大关键升级:
Transformer Block
输入
Input Tokens
Embedding
Transformer Block x L
CSA/HCA 注意力层
DeepSeekMoE 前馈网络
mHC 超连接
Pre-Block Mixing
Residual Mixing
Post-Block Mixing
MTP Modules x K
Prediction Head
LM Loss + MTP Loss
2.2 多 Token 预测(MTP)
2.2.1 传统方式 vs MTP
| 方式 | 输出 | 特点 |
|---|---|---|
| 传统 | 一次预测 1 个 token | 串行生成,速度慢 |
| MTP | 一次预测 K 个 token | 并行生成,更快 |
MTP (K=3)
Token1
Token2, 3, 4
传统自回归
Token1
Token2
Token3
Token4
2.2.2 DeepSeek-V4 实现
核心设计:
- 共享 Embedding:所有 MTP 模块共享输入 embedding 层
- 独立预测头:每个 MTP 模块有独立的预测头
- 逐级预测:第 1 层预测 token 2~K+1,第 2 层预测 token 3~K+2,依次类推
MTP Module K
MTP Module 2
MTP Module 1
隐藏状态
预测头
预测: Token₂
隐藏状态
预测头
预测: Token₃
隐藏状态
预测头
预测: Tokenₖ₊₁
总 Loss
LM_Loss + λ×MTP_Loss
损失函数:
总 Loss = LM_Loss + λ × MTP_Loss
| Loss | 全称 | 作用 |
|---|---|---|
| LM_Loss | Language Model Loss | 主损失,优化主模型预测下一个 token |
| MTP_Loss | MTP Loss | 辅助损失,优化 MTP 模块预测后续 K 个 token |
2.2.3 核心优势
| 优势 | 说明 |
|---|---|
| 训练信号更丰富 | 每个位置同时有 K 个预测目标 |
| 推理加速 | 一次生成多个 token,减少生成步数 |
| 减少重复 | 模型学会一次性规划多个 token 的连贯性 |
| 增强表示 | 多层结构提供更好的深层语义表示 |
💡 一句话总结:MTP 就是让模型"一次猜 K 个字",而不是"一次猜一个字猜 K 次"
2.3 混合注意力架构(CSA + HCA)
2.3.1 设计动机
传统注意力机制在处理长序列时面临两个核心挑战:
- 计算复杂度:O(n²) 的注意力计算
- KV Cache 存储:长序列需要巨大的显存
DeepSeek-V4 的解决方案是 用压缩换长度------通过混合使用 CSA 和 HCA 两种注意力机制,实现百万 token 上下文的高效处理。
2.2.2 压缩稀疏注意力(CSA)
概念导入:普通注意力机制
在理解 CSA 之前,先回顾标准的多头注意力机制:
输入序列: [Token₁, Token₂, Token₃, Token₄, Token₅, ...]
每个 Token 都有三个向量:
Q (Query): "我在找什么" - 查询向量
K (Key): "我是谁" - 键向量
V (Value): "我包含什么信息" - 值向量
注意力计算过程:
1. Token₃ 的 Query 和所有 Token 的 Key 做点积 → 得到注意力分数
2. Softmax 归一化分数
3. 用分数对所有 Token 的 Value 加权求和 → 得到输出
问题所在:
| 问题 | 影响 |
|---|---|
| O(n²) 复杂度 | 序列越长,计算量爆炸 |
| KV Cache 巨大 | 1M tokens 需要存储海量 KV 向量,显存不够用 💥 |
遇到的问题
普通注意力机制
Query
与所有K做点积
Softmax归一化
对V加权求和
KV Cache巨大
计算量爆炸
CSA 的解决思路
核心思想:用压缩换长度
CSA 采用三步流程实现高效注意力:
原始 KV
压缩 m倍
闪电索引器稀疏选择
核心MQA注意力
Step 1: KV 压缩
将连续的 m 个 KV 条目压缩为 1 个条目,使用 Softmax 加权求和 + 可学习位置偏置:
CComp_i = Σ(Softmax(Z_a + B_a) ⊙ C_a) + Σ(Softmax(Z_b + B_b) ⊙ C_b)
其中重叠压缩策略确保信息保留的连续性。
📖 公式通俗解读
符号 含义 CComp_i第 i 个压缩后的 KV 条目(输出) C_a/C_bKey-Value 对的实际内容 Z_a/Z_b可学习的查询权重(决定哪些 KV 重要) B_a/B_b可学习的位置偏置(考虑位置信息) Softmax(...)归一化权重(相加为 1) ⊙逐元素乘法 Σ加权求和 即:根据内容和位置,对 m 个 KV 条目做加权平均,得到 1 个压缩后的 KV 条目
处理流程:
KV₁ KV₂ ... KVm
Softmax计算注意力权重
加权求和Σ权重×KV
CComp压缩结果为什么有两套压缩器(a 和 b)?
- 类似残差连接,使用两套独立的参数
- 让模型学到更丰富的压缩模式
- 两者结果相加,保留更多信息
💡 通俗理解:为什么需要压缩?
对比 普通注意力 CSA 压缩后 处理方式 每个 KV 都参与计算 相邻 m 个 KV 打包成 1 个 比喻 读完一整本书来找答案(慢) 先把每章总结成一句话,再找答案(快) 效果 KV Cache 巨大,显存爆炸 KV Cache 大幅减小,支持更长上下文 压缩示例:
普通: [KV₁][KV₂][KV₃][KV₄][KV₅][KV₆]... ← 100万个 ↓ 压缩 (m=16) CSA后: [KV₁₋₁₆][KV₁₇₋₃₂][KV₃₃₋₄₈]... ← 6.25万个
Step 2: 闪电索引器(Lightning Indexer)
技术实现思路
闪电索引器的核心目标是:从海量压缩 KV 块中,快速定位最相关的那些。
为什么需要"索引"?
- 压缩后的 KV 仍然有数十万个块
- 全量做注意力计算仍然太慢
- 需要一个"搜索引擎",根据当前查询快速召回相关块
核心思路:低秩生成 + Top-k 选择
┌─────────────────────────────────────────────────────────┐
│ 闪电索引器工作原理 │
├─────────────────────────────────────────────────────────┤
│ │
│ 当前token的隐藏状态 h_t │
│ ↓ │
│ ┌─────────────────────────────────────────────┐ │
│ │ 低秩投影: h_t → q (降维压缩) │ │
│ └─────────────────────────────────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────────┐ │
│ │ 生成多组查询向量: q → [q₁, q₂, ..., qₕ] │ │
│ │ (h=64个索引头,并行计算) │ │
│ └─────────────────────────────────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────────┐ │
│ │ 对每个查询头,计算与所有KV块的相似度 │ │
│ │ 使用 ReLU 激活函数保留正相关 │ │
│ └─────────────────────────────────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────────┐ │
│ │ Top-k 聚合选择: 选出得分最高的 k 个 KV 块 │ │
│ │ (Flash: k=512, Pro: k=1024) │ │
│ └─────────────────────────────────────────────┘ │
│ ↓ │
│ 输出: 最相关的 k 个压缩 KV 块 → 进入注意力计算 │
│ │
└─────────────────────────────────────────────────────────┘
关键技术细节
| 技术 | 作用 |
|---|---|
| 低秩投影 | 避免直接处理完整的 KV 矩阵,降低计算复杂度 |
| 多查询头(64头) | 类似注意力机制,从不同角度捕捉相关性 |
| ReLU 激活 | 过滤掉负相关,只保留正相关的 KV 块 |
| Top-k 选择 | 稀疏注意力,只处理最相关的 k 个块 |
💡 类比理解:想象你在一个图书馆(压缩 KV 库)中找书:
- 低秩投影:把你要找的内容压缩成关键词
- 多查询头:用多个关键词组合从不同角度搜索
- Top-k:图书馆只返回最相关的 512/1024 本书,而不是全部扫描
Step 3: 共享 KV MQA
选中的压缩 KV 条目同时充当 Key 和 Value,进行分组查询注意力。
📖 什么是 MQA(多查询注意力)?
对比 普通 MHA MQA(多查询注意力) K 和 V 每个 Query 头有独立的 K 和 V 所有 Query 头共享同一份 K 和 V 计算量 Q_heads × K_heads × V_heads 大幅减少 显存占用 多份 K/V 缓存 只存一份 K/V 通俗理解:
普通MHA: 10个人各自查10本不同的书 → 100次查询 MQA: 10个人查同一本书 → 10次查询 "共享KV"就是大家共用同一本书!在 CSA 中的位置:
选中的压缩KV块 ↓ 同时充当 K 和 V ← "共享KV" ↓ 多个 Query 头并行查询 ↓ 得到注意力输出
CSA 配置参数:
| 参数 | Flash | Pro |
|---|---|---|
| 压缩率 m | 4 | 4 |
| 索引器头数 | 64 | 64 |
| 索引器头维度 | 128 | 128 |
| 注意力 top-k | 512 | 1024 |
2.2.3 重压缩注意力(HCA)
HCA 采用更激进的压缩策略,但不做稀疏选择:
- 压缩率:m' >> m(论文中 m' = 128)
- 策略:每 128 个 token 压缩为 1 个 KV 条目
- 注意力:全量密集注意力(非稀疏)
输入隐藏状态
Token级压缩器
重压缩KV条目
共享KV MQA
滑动窗口 KV条目
输出注意力结果
2.2.4 辅助设计
| 机制 | 说明 |
|---|---|
| QK 归一化 | 核心注意力前对 QK 做 RMSNorm,防止 logit 爆炸 |
| 部分 RoPE | 仅对最后 64 维施加旋转位置编码 |
| 滑动窗口注意力 | 附加 128 窗口的未压缩 KV,保留局部依赖 |
| Attention Sink | 可学习 sink logit,允许注意力头总分数不等于 1 |
| 分组输出投影 | 将 n_h 输出分成 g 组,降低投影计算量 |
2.2.5 效率对比
| 指标 | 相对 V3.2 GQA8 基线 |
|---|---|
| 1M 上下文 KV Cache | 仅 2% |
| 单 token 推理 FLOPs(Pro) | 27% |
| KV Cache 大小(Pro) | 10% |
混合精度存储:
- RoPE 维度:BF16
- 其余部分:FP8
- 闪电索引器:FP4
2.4 流形约束超连接(mHC)
2.4.1 设计动机
传统残差连接在深层堆叠时存在信号传播不稳定的问题:
- 信息可能在 skip connection 中被"淹没"
- 标准超连接训练中数值不稳定
2.4.2 核心创新
mHC 通过三个关键约束确保信号稳定传播:
① 双随机矩阵约束
- 将残差映射矩阵约束到 Birkhoff 多面体
- 确保谱范数 ≤ 1
- 数学保证:||W||_2 ≤ 1
② Sigmoid 约束
- 输入/输出映射约束为非负有界
- 避免信号相互抵消
③ 动态参数化
映射矩阵 = 静态分量(可学习偏置)+ 动态分量(输入相关)
Sinkhorn-Knopp 迭代:
- 20 次迭代投影到双随机矩阵流形
- 确保行、列和均为 1
2.4.3 效率数据
"the additional wall-clock overhead of mHC amounts to merely 6.7% of the total time of a pipeline stage"
仅用 6.7% 的额外开销,换来深层网络训练的数值稳定性。
2.5 Muon 优化器
DeepSeek-V4 是 首个在大规模 MoE 模型上成功应用 Muon 的工作。
2.5.1 算法流程
Muon 的核心思想是:用"梯度方向的正交化"替代 AdamW 的"自适应学习率"。
步骤三:应用更新
步骤二:正交化迭代 (10步)
步骤一:累积动量
是
否
衰减系数
动量缓存
当前梯度
上一步动量
混合 Newton-Schulz 迭代
步数 < 8 ?
快速收敛系数
稳定收敛系数
正交化更新
更新动量
计算更新量
取符号 × 开方梯度
重缩放
权重衰减
参数更新
💡 Muon vs AdamW 的核心区别
方面 AdamW Muon 核心思路 自适应学习率缩放 梯度方向正交化 对梯度的处理 二阶动量归一化 将梯度投影到正交方向 收敛速度 中等 更快(理论上) 内存开销 较多(需存二阶动量) 较少
2.5.2 分区策略
Muon 不是万能的,部分模块仍需使用 AdamW:
小参数量
稳定性优先
大参数量
收敛加速
使用 Muon (主力)
Linear层
MoE专家
注意力参数
使用 AdamW
Embedding
预测头
RMSNorm
mHC门控/偏置
AdamW
Muon
2.5.3 MoE 高效实现
四大优化策略
ZeRO分桶
参数合并
BF16梯度同步
两阶段Reduce
padding开销<10%
减少通信量
通信量减半
避免精度误差
三、训练方法
3.1 预训练
3.1.1 数据构建
- 数据规模:超过 32T tokens
- 词表:128K
- 数据质量 :
- 过滤批量自动生成内容(避免模型坍缩)
- 过滤模板化内容
- 数学与编程仍是核心
- 中期加入 agentic 数据
- 扩大多语言语料
- 增加长文档数据(科学论文、技术报告)
3.1.2 序列长度课程
4K
16K
64K
1M
渐进式扩展训练上下文长度,最终支持百万 token。
3.1.3 训练稳定性技术
① 预期路由(Anticipatory Routing)
核心思想:使用历史参数计算路由索引,避免同步更新带来的不稳定。
时刻2
时刻1
缓存
获取数据
计算路由索引
特征计算
应用路由索引
实现细节:
- 在 t-Δt 时刻预先获取 t 时刻的数据
- "预期"计算并缓存路由索引
- 自动检测机制:仅在 loss spike 触发时激活
- 额外开销:约 20%
② SwiGLU 钳位
| 分量 | 钳位范围 |
|---|---|
| 线性分量 | [-10, 10] |
| 门控分量上界 | 10 |
有效消除离群值,提升训练稳定性。
3.2 后训练:两阶段范式
Base Model
各领域 SFT
各领域 GRPO
多领域专家模型
OPD蒸馏
统一模型
3.2.1 三种推理模式
| 模式 | 说明 | 适用场景 |
|---|---|---|
| Standard | 标准推理 | 快速响应 |
| High | 逻辑分析模式 | 复杂推理任务 |
| Max | 推理极限模式 | 最具挑战性任务 |
Max 模式特点:
- 更长上下文
- 更低长度惩罚
- 在最难任务上表现最优
3.2.2 生成式奖励模型(GRM)
- 摒弃传统标量奖励模型
- 单独训练的生成式奖励模型,为最终答案和推理过程提供奖励信号
- 支持灵活的长思维链生成
3.2.3 On-Policy Distillation (OPD)
核心创新:全词表 logit 蒸馏
| 对比项 | 传统方法 | OPD |
|---|---|---|
| KL 损失 | token 级 KL 估计 | 全词表 logit 蒸馏 |
| 方差 | 高方差 | 更稳定的梯度估计 |
| 知识蒸馏 | 部分 | 完整保留 |
教师模型:
- 框架支持无限数量的教师模型(effectively unbounded number of teachers)
- 采用 ZeRO-like 参数分片按需加载
- 教师权重量化到 FP4 离线存储
蒸馏目标:
L_OPD(θ) = Σ w_i · D_KL(π_θ || π_E_i)
四、基础设施创新
4.1 MegaMoE 超级内核
| 特性 | 说明 |
|---|---|
| 四阶段融合 | MoE 的 dispatch、All-to-All、forward、reduce 融合为单一流水线 |
| 通用推理加速 | 1.50~1.96× |
| 适用场景 | 所有 MoE 推理任务 |
4.2 TileLang DSL
| 特性 | 说明 |
|---|---|
| 定位 | 高效算子开发领域特定语言 |
| 固定开销 | <1μs/调用 |
| 优势 | 快速迭代新算子 |
4.3 批次不变性与确定性训练
批次不变性(Batch Invariance):
同一 token 无论在 batch 中什么位置,输出逐位一致
确定性训练(Deterministic):
- 消除所有 atomicAdd 操作
- 使用独立累积缓冲区
- 确保可复现性
4.4 FP4 量化感知训练
| 模块 | 量化精度 |
|---|---|
| MoE 专家权重 | FP4 |
| CSA 索引器 QK 路径 | FP4 |
| 其他 | BF16/FP8 |
4.5 KV Cache 管理
4.5.1 异构 KV Cache 布局
| 类型 | 说明 |
|---|---|
| SWA KV | 滑动窗口注意力未压缩 KV |
| 尾部未压缩 KV | HCA 尾部不完整 block |
| 压缩 KV | CSA/HCA 核心压缩 KV |
4.5.2 磁盘 KV Cache 存储
针对共享前缀复用场景,提供三种策略:
| 策略 | 存储开销 | 计算开销 | 适用场景 |
|---|---|---|---|
| Full SWA Caching | 高 | 零 | 存储充足、计算敏感 |
| Periodic Checkpointing | 中 | 中 | 平衡场景 |
| Zero SWA Caching | 零 | 高 | 存储受限场景 |
4.6 DSec 沙箱基础设施
DeepSeek Elastic Compute (DSec) 是生产级沙箱平台:
四种执行模式
DSec 核心组件
Apiserver API网关
Watcher 集群监控
Edge 每主机代理
3FS 分布式文件系统
Function Call
Container
microVM
fullVM
设计动机:
- Agentic 工作负载高度异构
- 环境镜像大但需快速加载
- 高密度部署需求
- 沙箱生命周期需与 GPU 训练协调
五、评测结果
5.1 Base 模型评测
Table 1: Base 模型对比
| Benchmark | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| Architecture | MoE | MoE | MoE |
| # Activated Params | 37B | 13B | 49B |
| # Total Params | 671B | 284B | 1.6T |
| World Knowledge | |||
| MMLU (5-shot) | 87.8 | 88.7 | 90.1 |
| MMLU-Pro (5-shot) | 65.5 | 68.3 | 73.5 |
| C-Eval (5-shot) | 90.4 | 92.1 | 93.1 |
| SimpleQA (25-shot) | 28.3 | 30.1 | 55.2 |
| Language & Reasoning | |||
| BBH (3-shot) | 87.6 | 86.9 | 87.5 |
| DROP (1-shot) | 88.2 | 88.6 | 88.7 |
| Code & Math | |||
| BigCodeBench (3-shot) | 63.9 | 56.8 | 59.2 |
| HumanEval (0-shot) | 62.8 | 69.5 | 76.8 |
| MATH (4-shot) | 60.5 | 57.4 | 64.5 |
| GSM8K (8-shot) | 91.1 | 90.8 | 92.6 |
| Long Context | |||
| LongBench-V2 (1-shot) | 40.2 | 44.7 | 51.5 |
关键发现:V4-Flash 仅 13B 激活参数(远小于 V3.2 的 37B),却在多数 benchmark 上超越 V3.2。
5.2 与闭源模型对比(V4-Pro-Max)
5.2.1 知识领域
| Benchmark | DeepSeek-V4-Pro-Max | Claude-Opus-4.6-Max | GPT-5.4-xHigh | Gemini-3.1-Pro-High |
|---|---|---|---|---|
| SimpleQA | 57.9 | 47.2 | 39.8 | 45.3 |
| MMLU-Pro | 87.5 | 85.9 | 78.1 | 89.1 |
开源模型中大幅领先,超其他开源模型 20 个百分点
5.2.2 编程能力
| Benchmark | DeepSeek-V4-Pro-Max | Claude-Opus-4.6-Max | GPT-5.4-xHigh | Gemini-3.1-Pro-High |
|---|---|---|---|---|
| LiveCodeBench | 93.5 | 88.8 | - | 91.7 |
| Codeforces Rating | 3206 | 3168 | 3052 | - |
| SWE Verified | 80.6 | 80.8 | 75.1 | 68.5 |
Codeforces 3206:首次追平闭源模型
5.2.3 Agent 能力
| Benchmark | DeepSeek-V4-Pro-Max | Claude-Sonnet-4.5 | Kimi-K2.6 | GLM-5.1 |
|---|---|---|---|---|
| Terminal Bench 2.0 | 67.9 | 47.2 | 54.6 | 48.8 |
| Toolathlon | 51.8 | - | 47.2 | - |
内部评测:67% vs Sonnet 4.5 的 47%,超越 Sonnet 4.5
5.2.4 数学推理
| 评测 | 结果 |
|---|---|
| Putnam-2025 | 120/120 满分 |
| Frontier 排名 | 与 Axiom 并列第一 |
5.2.5 百万 Token 上下文
| 任务 | DeepSeek-V4-Pro | Gemini-3.1-Pro | Claude Opus 4.6 |
|---|---|---|---|
| MRCR 1M | 83.5 | ~70 | ~90 |
| CorpusQA 1M | 62.0 | ~55 | - |
在学术基准上超越 Gemini-3.1-Pro
5.3 效率对比
| 配置 | Single-Token FLOPs | KV Cache |
|---|---|---|
| DeepSeek-V3.2 (基线) | 1× | 1× |
| DeepSeek-V4-Pro | 0.27× | 0.10× |
8.3 倍更低的 FLOPs,9.8 倍更低的 KV Cache
六、API 与开源
6.1 模型访问
| 渠道 | 地址 |
|---|---|
| Hugging Face | https://huggingface.co/collections/deepseek-ai/deepseek-v4 |
| ModelScope | https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4 |
| API 模型名 | deepseek-v4-pro / deepseek-v4-flash |
| 最大上下文 | 1M tokens |
| 推理模式参数 | reasoning_effort: high / max |
6.2 定价策略
- 日间价格:标准定价
- 夜间价格:半价优惠
七、局限与未来方向
| 方向 | 说明 |
|---|---|
| 架构复杂度 | 保留了许多已验证组件,未来需精简为更优雅设计 |
| 理论理解 | Anticipatory Routing 和 SwiGLU Clamping 有效但原理不清 |
| 新维度稀疏性 | 将探索更稀疏的 embedding 模块 |
| 低延迟架构 | 长上下文部署的响应速度仍需优化 |
| 多模态能力 | 尚未集成 |
| 数据策展 | 持续改进数据策略 |
八、技术术语表
| 术语 | 全称 | 说明 |
|---|---|---|
| MoE | Mixture of Experts | 混合专家架构 |
| CSA | Compressed Sparse Attention | 压缩稀疏注意力 |
| HCA | Heavily Compressed Attention | 重压缩注意力 |
| mHC | Manifold-Constrained Hyper-Connections | 流形约束超连接 |
| MTP | Multi-Token Prediction | 多 token 预测 |
| MQA | Multi-Query Attention | 多查询注意力 |
| GQA | Grouped Query Attention | 分组查询注意力 |
| EP | Expert Parallelism | 专家并行 |
| ZeRO | Zero Redundancy Optimizer | 零冗余优化器 |
| GRPO | Group Relative Policy Optimization | 群体相对策略优化 |
| OPD | On-Policy Distillation | 策略蒸馏 |
| DSec | DeepSeek Elastic Compute | 深度求索弹性计算 |
| RoPE | Rotary Position Embedding | 旋转位置编码 |
| SWA | Sliding Window Attention | 滑动窗口注意力 |
九、总结
DeepSeek-V4 代表了以下突破:
9.1 架构效率革新
- CSA/HCA 混合注意力:百万 token 上下文 KV Cache 仅需 2%
- mHC:6.7% 额外开销换训练稳定
- Muon:首个大规模 MoE 成功应用
9.2 能力边界拓展
- 开源最强编程:Codeforces 3206,追平闭源
- 数学满分:Putnam-2025 120/120
- Agent 超越:67% vs Sonnet 4.5 的 47%
9.3 工程落地
- 华为昇腾支持:首次脱离 CUDA,拥抱国产算力
- MegaMoE 内核:推理加速 1.50~1.96×
- DSec 平台:生产级 Agent 训练基础设施
9.4 战略意义
- 目标估值 200 亿美元
- API 夜间半价:扩大开发者生态
- 为 Agent 时代奠定基础设施
本文档基于 DeepSeek-V4 原文 (58页技术报告) 整理,发布时间:2026年4月24日