DeepSeek-V4:迈向高效百万Token上下文智能

摘要

我们展示了 DeepSeek-V4 系列的预览版本,包括两个强大的混合专家(MoE)语言模型------DeepSeek-V4-Pro(总参数量 1.6T,激活参数量 49B)和 DeepSeek-V4-Flash(总参数量 284B,激活参数量 13B)------两者均支持一百万令牌的上下文长度。DeepSeek-V4 系列在架构和优化方面融合了多项关键升级:(1)一种结合了压缩稀疏注意力(CSA)和重度压缩注意力(HCA)的混合注意力架构,以提高长上下文效率;(2)流形约束超连接(mHC),增强了传统的残差连接;(3)以及 Muon 优化器,以实现更快的收敛和更高的训练稳定性。我们在超过 32T 的多样化、高质量令牌上对这两个模型进行了预训练,随后进行了一个全面的后训练流程,以解锁并进一步增强其能力。DeepSeek-V4-Pro-Max 是 DeepSeek-V4-Pro 的最大推理努力模式,它重新定义了开放模型的最先进水平,在核心任务上优于其前代模型。同时,DeepSeek-V4 系列在长上下文场景中非常高效。在百万令牌上下文设置下,与 DeepSeek-V3.2 相比,DeepSeek-V4-Pro 仅需 27%27\%27% 的单令牌推理 FLOPs 和 10%10\%10% 的 KV 缓存。这使得我们能够常规性地支持百万令牌上下文,从而使长期任务和进一步的测试时扩展更加可行。模型检查点可在 https://huggingface.co/collections/deepseek-ai/deepseek-v4 获取。

图 1 | 左图:DeepSeek-V4-Pro-Max 及其对标模型的基准性能。右图:DeepSeek-V4 系列和 DeepSeek-V3.2 的推理 FLOPs 和 KV 缓存大小。

1. 引言

推理模型的出现(DeepSeek-AI,2025;OpenAI,2024c)建立了一种新的测试时扩展范式,推动了大语言模型(LLM)的性能大幅提升。然而,这种扩展范式从根本上受到普通注意力机制(Vaswani 等人,2017)的二次计算复杂度的限制,这为超长上下文和推理过程造成了难以承受的瓶颈。与此同时,长期场景和任务的出现------从复杂的智能体工作流到大规模的跨文档分析------也使得对超长上下文的高效支持对未来进展至关重要。虽然最近的开源努力(Bai 等人,2025a;DeepSeek-AI,2024;MiniMax,2025;Qwen,2025)已经推进了通用能力,但在处理超长序列方面的核心架构效率低下仍然是一个关键障碍,限制了测试时扩展的进一步收益,并阻碍了对长期场景和任务的进一步探索。

为了打破超长上下文中的效率障碍,我们开发了 DeepSeek-V4 系列,包括 DeepSeek-V4-Pro(总参数量 1.6T,激活参数量 49B)和 DeepSeek-V4-Flash(总参数量 284B,激活参数量 13B)的预览版本。通过架构创新,DeepSeek-V4 系列在处理超长序列的计算效率方面实现了巨大飞跃。这一突破使得高效支持百万令牌上下文成为可能,为下一代 LLM 开启了百万长度上下文的新时代。我们相信,我们高效处理超长序列的能力解锁了测试时扩展的下一个前沿,为深入研究长期任务铺平了道路,并为探索在线学习等未来范式奠定了必要的基础。

与 DeepSeek-V3 架构(DeepSeek-AI,2024)相比,DeepSeek-V4 系列保留了 DeepSeekMoE 框架(Dai 等人,2024)和多令牌预测(MTP)策略,同时在架构和优化方面引入了若干关键创新。为了增强长上下文效率,我们设计了一种结合了压缩稀疏注意力(CSA)和重度压缩注意力(HCA)的混合注意力机制。CSA 沿着序列维度压缩 KV 缓存,然后执行 DeepSeek 稀疏注意力(DSA)(DeepSeek-AI,2025),而 HCA 对 KV 缓存应用更激进的压缩,但保持密集注意力。为了增强建模能力,我们引入了流形约束超连接(mHC)(Xie 等人,2026),它升级了传统的残差连接。此外,我们将 Muon(Jordan 等人,2024;Liu 等人,2025)优化器引入到 DeepSeek-V4 系列的训练中,从而实现了更快的收敛和更高的训练稳定性。

为了实现 DeepSeek-V4 系列的高效训练和推理以及高效开发,我们引入了若干基础设施优化。首先,我们为 MoE 模块设计并实现了一个单一融合核函数,完全重叠了计算、通信和内存访问。其次,我们采用了 TileLang(Wang 等人,2026),一种领域特定语言(DSL),以平衡开发生产力和运行时效率。第三,我们提供了高效的批量不变和确定性核函数库,以确保训练和推理之间的按位可重现性。第四,我们将 FP4 量化感知训练集成到 MoE 专家权重和索引器 QK 路径中,以减少内存和计算。第五,对于训练框架,我们通过张量级检查点扩展了自动梯度框架,以实现细粒度的重计算控制;并且通过用于 Muon 优化器的混合 ZeRO 策略、通过重计算和融合核函数实现的具有成本效益的 mHC 实现,以及用于管理压缩注意力的两阶段上下文并行,提高了训练效率。最后,对于推理框架,我们设计了一种异构的 KV 缓存结构及磁盘存储策略,以实现高效的共享前缀重用。

通过采用混合的 CSA 和 HCA,以及对计算和存储的精度优化,与 DeepSeek-V3.2 相比,DeepSeek-V4 系列在推理 FLOPs 和 KV 缓存大小方面实现了显著降低,尤其是在长上下文设置下。图 1 的右侧部分展示了 DeepSeek-V3.2 和 DeepSeek-V4 系列的估计单令牌推理 FLOPs 和累积 KV 缓存大小。在 1M 令牌上下文场景中,即使是具有更大激活参数量的 DeepSeek-V4-Pro,其单令牌 FLOPs(以等效 FP8 FLOPs 衡量)也仅达到 DeepSeek-V3.2 的 27%27\%27%,KV 缓存大小仅为 DeepSeek-V3.2 的 10%10\%10%。此外,具有更小激活参数量的 DeepSeek-V4-Flash 进一步提升了效率:在 1M 令牌上下文设置中,其单令牌 FLOPs 仅达到 DeepSeek-V3.2 的 10%10\%10%,KV 缓存大小仅为 DeepSeek-V3.2 的 7%7\%7%。另外,对于 DeepSeek-V4 系列,路由专家参数使用 FP4 精度。虽然在现有硬件上,FP4 ×\times× FP8 操作的峰值 FLOPs 目前与 FP8 ×\times× FP8 相同,但在未来硬件上理论上可以将其效率提高 1/31/31/3,这将进一步提升 DeepSeek-V4 系列的效率。

在预训练期间,我们分别用 32T 令牌训练了 DeepSeek-V4-Flash,用 33T 令牌训练了 DeepSeek-V4-Pro。预训练后,这两个模型可以原生且高效地支持 1M 长度上下文。在我们的内部评估中,DeepSeek-V4-Flash-Base 凭借其更具参数效率的设计,已经在大多数基准测试上超越了 DeepSeek-V3.2-Base。DeepSeek-V4-Pro-Base 进一步扩展了这一优势,为 DeepSeek 基础模型设定了新的性能标准,在推理、编码、长上下文和世界知识任务上实现了全面优越性。

DeepSeek-V4 系列的后训练流程采用两阶段范式:首先独立培养领域特定专家,然后通过同策略蒸馏(Lu and Lab,2025)进行统一模型整合。初始阶段,对于每个目标领域(如数学、编码、智能体和指令跟随),分别独立训练一个专家模型。基础模型首先在高质量、领域特定的数据上进行监督微调(SFT),以建立基础能力。随后,使用组相对策略优化(GRPO)(DeepSeek-AI,2025)应用强化学习(RL),该算法根据针对特定成功标准定制的奖励模型,进一步优化模型以实现领域对齐的行为。此阶段产生一组多样化的专业专家,每个专家在其各自领域都表现出色。最后,为了整合这些不同的专业技能,通过同策略蒸馏训练一个单一的统一模型,其中统一模型作为学生,学习优化与教师模型的反向 KL 散度损失。

核心评估结果总结

  • 知识:在对广泛世界知识的评估中,DeepSeek-V4-Pro-Max 是 DeepSeek-V4-Pro 的最大推理努力模式,在 SimpleQA (OpenAI, 2024d) 和 Chinese-SimpleQA (He et al., 2024) 基准测试上显著优于领先的开源模型。关于教育知识------通过 MMLU-Pro (Wang et al., 2024b)、HLE (Phan et al., 2025) 和 GPQA (Rein et al., 2023) 评估------DeepSeek-V4-Pro-Max 相比其开源对手显示出微弱优势。DeepSeek-V4-Pro-Max 显著缩小了与领先的专有模型 Gemini-3.1-Pro 的差距,尽管在这些基于知识的评估中仍落后于它。
  • 推理:通过扩展推理令牌,DeepSeek-V4-Pro-Max 在标准推理基准上显示出相对于 GPT-5.2 和 Gemini-3.0-Pro 的优越性能。尽管如此,其性能略微落后于 GPT-5.4 和 Gemini-3.1-Pro,表明其发展轨迹大约落后前沿模型 3 到 6 个月。此外,DeepSeek-V4-Flash-Max 实现了与GPT-5.2 和 Gemini-3.0-Pro 相当的性能,为复杂的推理任务建立了一个极具成本效益的架构。
  • 智能体:在公共基准上,DeepSeek-V4-Pro-Max 与领先的开源模型(如 Kimi-K2.6 和 GLM-5.1)持平,但略逊于前沿的闭源模型。在我们的内部评估中,DeepSeek-V4-Pro-Max 优于 Claude Sonnet 4.5,并接近 Opus 4.5 的水平。
  • 长上下文:DeepSeek-V4-Pro-Max 在百万令牌上下文窗口的合成任务和实际用例上均取得了强劲的结果,在学术基准上甚至超越了 Gemini-3.1-Pro。
  • DeepSeek-V4-Pro 与 DeepSeek-V4-Flash :由于其较小的参数规模,DeepSeek-V4-Flash-Max 在知识评估中表现较低。然而,当分配更大的思考预算时,它在推理任务上取得了相当的结果。在智能体评估中,虽然 DeepSeek-V4-Flash-Max 在若干基准上与 DeepSeek-V4-Pro-Max 性能相当,但在更复杂、高难度的任务上仍然落后于其更大的对手。

图 2 | DeepSeek-V4 系列的整体架构。我们在注意力层使用混合的 CSA(压缩稀疏注意力)和 HCA(重度压缩注意力),在前馈层使用 DeepSeekMoE,并通过 mHC 加强传统的残差连接。 ## 2. 架构

总的来说,DeepSeek-V4 系列保留了 Transformer(Vaswani 等人,2017)架构和多令牌预测(MTP)模块(DeepSeek-AI,2024;Gloeckle 等人,2024),同时引入了对 DeepSeek-V3 的若干关键升级:(1)首先,我们引入了流形约束超连接(mHC)(Xie 等人,2026)以加强传统的残差连接;

(2)其次,我们设计了一种混合注意力架构,通过压缩稀疏注意力和重度压缩注意力极大地提高了长上下文效率。

(3)第三,我们采用 Muon(Jordan 等人,2024;Liu 等人,2025)作为优化器。对于混合专家(MoE)组件,我们仍然采用 DeepSeekMoE(Dai 等人,2024)架构,仅对 DeepSeek-V3 进行了微小调整。多令牌预测(MTP)(DeepSeek-AI,2024;Gloeckle 等人,2024;Li 等人,2024;Qi 等人,2020)配置与 DeepSeek-V3 保持一致。所有其他未指定的细节遵循 DeepSeek-V3(DeepSeek-AI,2024)中建立的设置。图 2 展示了 DeepSeek-V4 的整体架构,细节描述如下。

2.1. 从 DeepSeek-V3 继承的设计

混合专家 。与之前的 DeepSeek 系列模型(DeepSeek-AI,2024;DeepSeek-AI,2024)一样,DeepSeek-V4 系列在前馈网络(FFN)中也采用了 DeepSeekMoE 范式(Dai 等人,2024),该范式设置了细粒度的路由专家和共享专家。与 DeepSeek-V3 不同,我们将计算亲和度分数的激活函数从 Sigmoid(⋅)(\cdot)(⋅) 改为 Sqrt(Softplus(⋅)(\cdot)(⋅))。对于负载均衡,我们也采用了无辅助损失策略(DeepSeek-AI,2024;Wang 等人,2024a),并辅以一个轻微的序列级均衡损失,以防止单个序列内的极端不平衡。对于 DeepSeek-V4,我们取消了对路由目标节点数量的限制,并仔细重新设计了并行策略以保持训练效率。此外,与 DeepSeek-V3 相比,我们将前几个 Transformer 块中的密集 FFN 层替换为使用哈希路由(Roller 等人,2021)的 MoE 层。哈希路由策略根据关于输入令牌 ID 的预定义哈希函数确定每个令牌的目标专家。

多令牌预测。与 DeepSeek-V3 一样,DeepSeek-V4 系列也设置了 MTP 模块和目标。鉴于 MTP 策略已在 DeepSeek-V3 中得到验证,我们对其不加修改地用于 DeepSeek-V4 系列。

2.2. 流形约束超连接

如图 2 所示,DeepSeek-V4 系列集成了流形约束超连接(mHC)(Xie 等人,2026),以加强相邻 Transformer 块之间的传统残差连接。与朴素的超连接(HC)(Zhu 等人,2025)相比,mHC 的核心思想是将残差映射约束到特定的流形上,从而增强跨层信号传播的稳定性,同时保持模型表达能力。本小节简要介绍标准的 HC,并描述我们如何设计用于稳定训练的 mHC。

标准超连接 。标准的 HC 将残差流的宽度扩展了 nhcn_{\mathrm{hc}}nhc 倍。具体来说,残差流的形状从 Rd\mathbb{R}^dRd 扩展到 Rnhc×d\mathbb{R}^{n_{\mathrm{hc}}\times d}Rnhc×d,其中 ddd 是实际层输入的隐藏大小。令 Xl=[xl,1,...;xl,nhc]T∈Rnhc×dX_{l} = [\mathbf{x}{l,1},\ldots ;\mathbf{x}{l,n_{\mathrm{hc}}}]^{T}\in \mathbb{R}^{n_{\mathrm{hc}}\times d}Xl=[xl,1,...;xl,nhc]T∈Rnhc×d 为第 lll 层之前的残差状态。HC 引入了三个线性映射:输入映射 Al∈R1×nhcA_{l}\in \mathbb{R}^{1\times n_{\mathrm{hc}}}Al∈R1×nhc,残差变换 Bl∈Rnhc×nhcB_{l}\in \mathbb{R}^{n_{\mathrm{hc}}\times n_{\mathrm{hc}}}Bl∈Rnhc×nhc,以及输出映射 Cl∈Rnhc×1C_{l}\in \mathbb{R}^{n_{\mathrm{hc}}\times 1}Cl∈Rnhc×1。残差状态的更新公式如下:

Xl+1=BlXl+ClFl(AlXl),(1)X_{l + 1} = B_{l}X_{l} + C_{l}\mathcal{F}{l}(A{l}X_{l}), \quad (1)Xl+1=BlXl+ClFl(AlXl),(1)

其中 Fl\mathcal{F}{l}Fl 表示第 lll 层(例如,一个 MoE 层),其输入和输出形状均为 Rd\mathbb{R}^dRd。注意,实际的层输入 AlXl∈RdA{l}X_{l}\in \mathbb{R}^{d}AlXl∈Rd 也是 ddd 维的,因此扩展的残差

===== 第 8 页 =====

宽度不会影响内层设计。HC 将残差宽度与实际隐藏大小解耦,提供了一个计算开销最小的互补缩放轴,因为 nhcn_{\mathrm{hc}}nhc 通常远小于隐藏大小 ddd。然而,尽管 HC 已被证明具有提升模型性能的潜力,但我们发现当堆叠多层时,训练经常会出现数值不稳定性,这阻碍了 HC 的扩展。

流形约束残差映射 。mHC 的核心创新是将残差映射矩阵 BlB_{l}Bl 约束到双随机矩阵(Birkhoff 多胞形)的流形 M\mathcal{M}M 上,从而增强跨层信号传播的稳定性:

Bl∈M≔{M∈Rn×n∣M1n=1n,1nTM=1nT,M⩾0}.(2)B_{l}\in \mathcal{M}\coloneqq \{M\in \mathbb{R}^{n\times n}\mid M\mathbf{1}{n} = \mathbf{1}{n},\mathbf{1}{n}^{T}M = \mathbf{1}{n}^{T},M\geqslant 0\} . \quad (2)Bl∈M:={M∈Rn×n∣M1n=1n,1nTM=1nT,M⩾0}.(2)

此约束确保了映射矩阵的谱范数 ∥Bl∥2\| B_{l}\|{2}∥Bl∥2 以 1 为界,因此残差变换是非扩张的,这增加了前向传播和反向传播过程中的数值稳定性。此外,集合 M\mathcal{M}M 在乘法下是封闭的,这保证了在深度堆叠 mHC 的场景下的稳定性。另外,输入变换 AlA{l}Al 和输出变换 ClC_{l}Cl 也被约束为非负的,并通过 Sigmoid 函数进行有界化,以避免信号抵消的风险。

动态参数化 。三个线性映射的参数是动态生成的,它们被分解为一个动态(输入相关)组件和一个静态(输入无关)组件。给定输入 Xl∈Rnhc×dX_{l}\in \mathbb{R}^{n_{\mathrm{hc}}\times d}Xl∈Rnhc×d,首先将其展平并归一化:X^l=RMSNorm(vec(Xl))∈R1×nhcd\hat{X}{l} = \mathrm{RMSNorm}(\mathrm{vec}(X{l}))\in \mathbb{R}^{1\times n_{\mathrm{hc}}d}X^l=RMSNorm(vec(Xl))∈R1×nhcd。然后,我们遵循传统的 HC 生成无约束的原始参数 A~l∈R1×nhc\tilde{A}{l}\in \mathbb{R}^{1\times n{\mathrm{hc}}}A~l∈R1×nhc,B~l∈Rnhc×nhc\tilde{B}{l}\in \mathbb{R}^{n{\mathrm{hc}}\times n_{\mathrm{hc}}}B~l∈Rnhc×nhc 和 C~l∈Rnhc×1\tilde{C}{l}\in \mathbb{R}^{n{\mathrm{hc}}\times 1}C~l∈Rnhc×1:

A~l=αlpre⋅(X^lWlpre)+Slpre,B~l=αlres⋅Mat(X^lWlres)+Slres,C~l=αlpost⋅(X^lWlpost)T+Slpost,(5)\begin{array}{rl} & {\tilde{A}{l} = \alpha{l}^{\mathrm{pre}}\cdot (\hat{X}{l}W{l}^{\mathrm{pre}}) + S_{l}^{\mathrm{pre}},}\\ & {\tilde{B}{l} = \alpha{l}^{\mathrm{res}}\cdot \mathrm{Mat}(\hat{X}{l}W{l}^{\mathrm{res}}) + S_{l}^{\mathrm{res}},}\\ & {\tilde{C}{l} = \alpha{l}^{\mathrm{post}}\cdot (\hat{X}{l}W{l}^{\mathrm{post}})^{T} + S_{l}^{\mathrm{post}},} \end{array} \quad (5)A~l=αlpre⋅(X^lWlpre)+Slpre,B~l=αlres⋅Mat(X^lWlres)+Slres,C~l=αlpost⋅(X^lWlpost)T+Slpost,(5)

其中 Wlpre,Wlpost∈Rnhcd×nhcW_{l}^{\mathrm{pre}},W_{l}^{\mathrm{post}}\in \mathbb{R}^{n_{\mathrm{hc}}d\times n_{\mathrm{hc}}}Wlpre,Wlpost∈Rnhcd×nhc 和 Wlres∈Rnhcd×nhc2W_{l}^{\mathrm{res}}\in \mathbb{R}^{n_{\mathrm{hc}}d\times n_{\mathrm{hc}}^{2}}Wlres∈Rnhcd×nhc2 是用于生成动态组件的可学习参数;Mat(⋅)\mathrm{Mat}(\cdot)Mat(⋅) 将大小为 1×nhc21\times n_{\mathrm{hc}}^{2}1×nhc2 的向量重塑为大小为 nhc×nhcn_{\mathrm{hc}}\times n_{\mathrm{hc}}nhc×nhc 的矩阵;Slpre∈R1×nhcS_{l}^{\mathrm{pre}}\in \mathbb{R}^{1\times n_{\mathrm{hc}}}Slpre∈R1×nhc,Slpost∈Rnhc×1S_{l}^{\mathrm{post}}\in \mathbb{R}^{n_{\mathrm{hc}}\times 1}Slpost∈Rnhc×1 和 Slres∈Rnhc×nhcS_{l}^{\mathrm{res}}\in \mathbb{R}^{n_{\mathrm{hc}}\times n_{\mathrm{hc}}}Slres∈Rnhc×nhc 是可学习的静态偏置;αlpre,αlres,αlpost∈R\alpha_{l}^{\mathrm{pre}},\alpha_{l}^{\mathrm{res}},\alpha_{l}^{\mathrm{post}}\in \mathbb{R}αlpre,αlres,αlpost∈R 是可学习的门控因子,初始化为小值。

应用参数约束 。在获得无约束原始参数 A~l,B~l,C~l\tilde{A}{l},\tilde{B}{l},\tilde{C}_{l}A~l,B~l,C~l 之后,我们对它们应用先前描述的约束以增强数值稳定性。具体来说,对于输入和输出映射,我们采用 Sigmoid 函数 σ(⋅)\sigma (\cdot)σ(⋅) 来确保它们的非负性和有界性:

Al=σ(A~l),Cl=2σ(C~l).(6)\begin{array}{r}A_{l} = \sigma (\tilde{A}{l}),\\ C{l} = 2\sigma (\tilde{C}_{l}). \end{array} \quad (6)Al=σ(A~l),Cl=2σ(C~l).(6)

至于残差映射 B~l\tilde{B}{l}B~l,我们将其投影到双随机矩阵流形 M\mathcal{M}M 上。这通过 Sinkhorn-Knopp 算法实现,该算法首先对 B~l\tilde{B}{l}B~l 应用指数函数以确保正性,得到 M(0)=exp⁡(B~l)M^{(0)} = \exp (\tilde{B}_{l})M(0)=exp(B~l),然后迭代执行列和行归一化:

M(t)=Tr(Tc(M(t−1))),(8)M^{(t)} = \mathcal{T}{r}(\mathcal{T}{c}(M^{(t - 1)})), \quad (8)M(t)=Tr(Tc(M(t−1))),(8)

其中 Tr\mathcal{T}{r}Tr 和 Tc\mathcal{T}{c}Tc 分别表示行归一化和列归一化。此迭代收敛到一个受约束的双随机矩阵 Bl=M(tmax)B_{l} = M^{(t_{\mathrm{max}})}Bl=M(tmax)。我们选择 tmax=20t_{\mathrm{max}} = 20tmax=20 作为实际值。


图 3 | CSA 的核心架构。它将 KV 条目数量压缩到原来的 \\frac{1}{m},然后应用 DeepSeek 稀疏注意力进行进一步加速。此外,一小部分滑动窗口 KV 条目与选定的压缩 KV 条目结合,以增强局部细粒度依赖关系。

2.3. 结合 CSA 和 HCA 的混合注意力

当上下文长度达到极端规模时,注意力机制成为模型中的主要计算瓶颈。对于 DeepSeek-V4,我们设计了两种高效的注意力架构------压缩稀疏注意力(CSA)和重度压缩注意力(HCA)------并采用它们的交错混合配置,这显著降低了长文本场景中注意力的计算成本。CSA 结合了压缩和稀疏注意力策略:它首先将每 mmm 个令牌的键值(KV)缓存压缩为一个条目,然后应用 DeepSeek 稀疏注意力(DSA)(DeepSeek-AI,2025),其中每个查询令牌仅关注 kkk 个压缩的 KV 条目。HCA 旨在通过将每 m′m'm′(≫m\gg m≫m)个令牌的 KV 缓存合并为一个条目来实现极端压缩。CSA 和 HCA 的混合架构显著提高了 DeepSeek-V4 系列的长上下文效率,使百万令牌上下文在实践中成为可能。本小节描述我们混合注意力架构的核心技术,并且我们还提供了一个开源实现1 以明确指定更多细节。

2.3.1. 压缩稀疏注意力

CSA 的核心架构如图 3 所示,它首先将每 mmm 个令牌的 KV 缓存压缩为一个条目,然后应用 DeepSeek 稀疏注意力进行进一步加速。

压缩的键值条目 。令 H∈Rn×dH \in \mathbb{R}^{n \times d}H∈Rn×d 为输入隐藏状态序列,其中 nnn 是序列长度,ddd 是隐藏大小。CSA 首先计算两个系列的 KV 条目 Ca,Cb∈Rn×cC^a, C^b \in \mathbb{R}^{n \times c}Ca,Cb∈Rn×c 及其对应的压缩权重 Za,Zb∈Rn×cZ^a, Z^b \in \mathbb{R}^{n \times c}Za,Zb∈Rn×c,其中 ccc 是头维度:

Ca=H⋅WaKV,Cb=H⋅WbKV,Za=H⋅WaZ,Zb=H⋅WbZ,(9)\begin{array}{rcl}{C^a = H\cdot W^{aKV},} & {C^b = H\cdot W^{bKV},}\\ {Z^a = H\cdot W^{aZ},} & {Z^b = H\cdot W^{bZ},} \end{array} \quad (9)Ca=H⋅WaKV,Za=H⋅WaZ,Cb=H⋅WbKV,Zb=H⋅WbZ,(9)

其中 WaKV,WbKV,WaZ,WbZ∈Rd×cW^{aKV},W^{bKV},W^{aZ},W^{bZ}\in \mathbb{R}^{d\times c}WaKV,WbKV,WaZ,WbZ∈Rd×c 是可训练参数。接下来,CaC^aCa 和 CbC^bCb 中的每 mmm 个 KV 条目将根据其压缩权重和可学习的位置偏置 Ba,Bb∈Rm×cB^a,B^b\in \mathbb{R}^{m\times c}Ba,Bb∈Rm×c 被压缩成一个条目,产生 CComp∈Rnm×cC^{\mathrm{Comp}}\in \mathbb{R}^{\frac{n}{m}\times c}CComp∈Rmn×c。每个压缩条目 CiComp∈RcC_i^{\mathrm{Comp}}\in \mathbb{R}^cCiComp∈Rc 通过下式计算:

Smi:m(i+1)−1a,Sm(i−1):mi−1b\]=Softmaxrow({Zmi:m(i+1)−1a+Ba;Zm(i−1):mi−1b+Bb}),CiComp=∑j=mim(i+1)−1Sja⊙Cja+∑j=m(i−1)mi−1Sjb⊙Cjb,(12)\\begin{array}{r l} \& {\[S_{m i:m(i + 1) - 1}\^{a},S_{m(i - 1):m i - 1}\^{b}\] = \\mathrm{Softmax}_{\\mathrm{row}}(\\{Z_{m i:m(i + 1) - 1}\^{a} + B\^{a};Z_{m(i - 1):m i - 1}\^{b} + B\^{b}\\}),}\\\\ \& {\\qquad C_{i}\^{\\mathrm{Comp}} = \\sum_{j = m i}\^{m(i + 1) - 1}S_{j}\^{a}\\odot C_{j}\^{a} + \\sum_{j = m(i - 1)}\^{m i - 1}S_{j}\^{b}\\odot C_{j}\^{b},} \\end{array} \\quad (12)\[Smi:m(i+1)−1a,Sm(i−1):mi−1b\]=Softmaxrow({Zmi:m(i+1)−1a+Ba;Zm(i−1):mi−1b+Bb}),CiComp=∑j=mim(i+1)−1Sja⊙Cja+∑j=m(i−1)mi−1Sjb⊙Cjb,(12) 其中 ⊙\\odot⊙ 表示哈达玛积;Softmaxrow(⋅)\\mathrm{Softmax}_{\\mathrm{row}}(\\cdot)Softmaxrow(⋅) 表示沿行维度的 softmax 操作,它对来自 ZaZ\^aZa 和 ZbZ\^bZb 的总共 2m2m2m 个元素进行归一化。当 i=0i = 0i=0 时,Zm(i−1):mi−1bZ_{m(i - 1):m i - 1}\^{b}Zm(i−1):mi−1b 用负无穷填充,Cm(i−1):mi−1bC_{m(i - 1):m i - 1}\^{b}Cm(i−1):mi−1b 用零填充。注意,每个 CiCompC_i\^{\\mathrm{Comp}}CiComp 来自 2m2m2m 个 KV 条目,但用于 CiCompC_i\^{\\mathrm{Comp}}CiComp 的 CbC\^bCb 索引和用于 Ci−1CompC_{i - 1}\^{\\mathrm{Comp}}Ci−1Comp 的 CaC\^aCa 索引是重叠的。因此,CSA 实际上将序列长度压缩到了原来的 1m\\frac{1}{m}m1。 **用于稀疏选择的闪电索引器** 。获得压缩的 KV 条目 CCompC\^{\\mathrm{Comp}}CComp 后,CSA 应用 DSA 策略为每个注意力核心选择 top-kkk 个压缩 KV 条目。首先,CSA 执行与用于 CCompC\^{\\mathrm{Comp}}CComp 相同的压缩操作,以获得压缩的索引器键 KComp∈Rnm×clK\^{\\mathrm{Comp}}\\in \\mathbb{R}\^{\\frac{n}{m}\\times c\^l}KComp∈Rmn×cl,其中 clc\^lcl 是索引器头维度。然后,对于查询令牌 ttt,我们以低秩方式生成索引器查询 {qt,1l;qt,2l;... ;qt,nhll}\\{\\mathbf{q}_{t,1}\^{l};\\mathbf{q}_{t,2}\^{l};\\dots;\\mathbf{q}_{t,n_{h}\^{l}}\^{l}\\}{qt,1l;qt,2l;...;qt,nhll}: ctQ=ht⋅WDQ,qtI;qt,2I;... ;qt,nhII=qtI=ctQ⋅WIUQ,(14)\\begin{array}{r}\\mathbf{c}_t\^Q = \\mathbf{h}_t\\cdot W\^{DQ},\\\\ \\mathbf{q}_t\^I;\\mathbf{q}_{t,2}\^I;\\dots;\\mathbf{q}_{t,n_h\^I}\^I = \\mathbf{q}_t\^I = \\mathbf{c}_t\^Q\\cdot W\^{IUQ}, \\end{array} \\quad (14)ctQ=ht⋅WDQ,qtI;qt,2I;...;qt,nhII=qtI=ctQ⋅WIUQ,(14) 其中 ht∈Rd\\mathbf{h}_t\\in \\mathbb{R}\^dht∈Rd 是查询令牌 ttt 的输入隐藏状态;ctQ∈Rdc\\mathbf{c}_t\^Q\\in \\mathbb{R}\^{d_c}ctQ∈Rdc 是查询的压缩潜在向量;dcd_cdc 表示查询压缩维度;nhIn_h\^InhI 表示索引器查询头的数量;WDQ∈Rd×dcW\^{DQ}\\in \\mathbb{R}\^{d\\times d_c}WDQ∈Rd×dc 和 WIUQ∈Rdc×clnhIW\^{IUQ}\\in \\mathbb{R}\^{d_c\\times c\^l n_h\^I}WIUQ∈Rdc×clnhI 分别是索引器查询的下投影和上投影矩阵。接下来,查询令牌 ttt 和前面的压缩块 sss(s\` 和 `` 标记分隔的专门响应格式。此外,对于"Think Max"模式,我们在系统提示的开头添加一个特定的指令来指导模型的推理过程,如表 3 所示。 **生成式奖励模型**。通常,易于验证的任务可以使用简单的基于规则的验证器或测试用例进行有效优化。相比之下,难以验证的任务传统上依赖于基于人类反馈的强化学习(RLHF),这需要大量的人工注释来训练一个标量奖励模型。然而,在 DeepSeek-V4 系列的后训练阶段,我们摒弃了这些传统的基于标量的奖励模型。相反,为了解决难以验证的任务,我们策划了基于规则的 RL 数据,并采用生成式奖励模型(GRM)来评估策略轨迹。关键的是,我们直接将 RL 优化应用于 GRM 本身。在这种范式下,演员网络原生地充当 GRM,使得模型的评估(判断)能力与其标准生成能力能够联合优化。通过统一这些角色,模型的内在推理能力被固有地融合到其评估过程中,从而产生高度鲁棒的评分。此外,这种方法仅用最少量的多样化人工注释就能实现卓越的性能,因为模型利用其自身的逻辑在复杂任务上进行泛化。 表 2 \| 三种推理模式的比较 | 推理模式 | 特点 | 典型用例 | 响应格式 | |:-----|:-------------------|:------------------|:---------------------------------------------| | 非思考 | 快速、基于习惯或简单规则的直觉反应。 | 日常任务、紧急反应、低风险决策。 | `` 摘要 | | 高思考 | 有意识的逻辑分析,较慢但更准确。 | 复杂问题解决、规划、中等风险决策。 | `` 思考令牌 `` 摘要 | | 最大思考 | 将推理推向极致。缓慢但强大。 | 探索模型推理能力的边界。 | 1. 开头的特殊系统提示。2. `` 思考令牌 `` 摘要 | 表 3 \| 为"最大思考"模式注入系统提示的指令。 | 注入的指令 | |:---------------------------------------------------------| | 推理努力:绝对最大,不允许走捷径。 | | 你必须非常透彻地思考,全面分解问题以解决根本原因,严格压力测试你的逻辑,考虑所有潜在路径、边缘情况和对抗性场景。 | | 明确写出你的整个思考过程,记录每一个中间步骤、考虑过的替代方案和被拒绝的假设,以确保没有任何假设被忽略。 | **工具调用模式和特殊令牌** 。与我们之前的版本一致,我们使用专用的 `` 标签来 delineate the reasoning path。在 DeepSeek-V4 系列中,我们引入了一种新的工具调用模式,该模式采用特殊的"\|DSML\|"令牌,并使用基于 XML 的格式进行工具调用,如表 4 所示。我们的实验表明,XML 格式有效地缓解了转义失败并减少了工具调用错误,为模型-工具交互提供了更健壮的接口。 **交错思考**。DeepSeek-V3.2 引入了一种上下文管理策略,该策略在工具结果轮次之间保留推理轨迹,但在新用户消息到达时丢弃它们。虽然有效,但这在复杂的智能体工作流中仍然造成了不必要的令牌浪费------每个新的用户轮次都会清空所有累积的推理内容,迫使模型从头重建其问题解决状态。利用 DeepSeek-V4 系列扩展的 1M 令牌上下文窗口,我们进一步完善了这一机制,以在智能体环境中最大化交错思考的有效性: * **工具调用场景**。如图 7(a) 所示,所有推理内容在整个对话过程中被完全保留。与 DeepSeek-V3.2(在每个新用户轮次时丢弃思考轨迹)不同,DeepSeek-V4 系列在包括用户消息边界在内的所有轮次中保留完整的推理历史。这允许模型在长期智能体任务中保持连贯、累积的思维链。 * **通用对话场景**。如图 7(b) 所示,原始策略被保留:当新用户消息到达时,前几轮的推理内容被丢弃,以在持久推理轨迹收益有限的场景中保持上下文简洁。 与 DeepSeek-V3.2 一样,通过用户消息模拟工具交互的智能体框架(例如 Terminus)可能不会触发工具调用上下文路径,因此可能无法从增强的推理持久性中受益。对于此类架构,我们继续推荐非思考模型。 表 4 \| DeepSeek-V4 系列的工具调用模式。 | 工具调用模式 | |:------------------------------------------------------------------------------------------| | ## 工具 | | 你可以使用一组工具来帮助回答用户的问题。你可以通过编写如下所示的"\< | | \< | | 字符串参数应按原样指定,并设置 `string='true'`。对于所有其他类型(数字、布尔值、数组、对象),请以 JSON 格式传递值并设置 `string='false'`。 | | 如果启用了思考模式(由 `` 触发),你必须在任何工具调用或最终响应之前,在 `...` 内输出完整的推理过程。 | | 否则,在 `` 之后直接输出工具调用或最终响应。 | | ## 可用工具模式 | | {工具定义...} | | 你必须严格遵循上述定义的工具名称和参数模式来调用工具。 | ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/2330734ece654cab933a54b45cadeedf.png) 图 7 \| DeepSeek-V4 系列的思考管理。 **快速指令**。在聊天机器人场景中,在生成响应之前必须执行许多辅助任务(例如,确定是否触发网络搜索、意图识别等)。传统上,这些任务由一个单独的小模型处理,由于无法重用现有的 KV 缓存,需要进行冗余的预过滤。为了克服这一限制,我们引入了快速指令。我们将一组专用的特殊令牌直接附加到输入序列中,其中每个令牌对应一个特定的辅助任务。通过直接重用已计算的 KV 缓存,这种机制完全避免了冗余的预过滤,并允许某些任务(例如生成搜索查询、确定权威性和领域)并行执行。因此,这种方法显著减少了用户感知的首令牌时间(TTFT),并消除了维护和迭代额外小模型的工程开销。支持的快速指令令牌总结在表 5 中。 ##### 5.1.2. 同策略蒸馏 在通过专门的微调和强化学习训练了多个领域特定专家后,我们采用多教师同策略蒸馏(OPD)作为将专家能力合并到最终模型的主要技术。OPD 已成为一种有效的后训练范式,用于将领域专家的知识和能力高效地转移到一个统一的模型中。这是通过让学生模型在其自身生成的轨迹上学习教师模型的输出分布来实现的。形式上,给定一组 NNN 个专家模型{πE1,πE2,...,πEN}\\{\\pi_{E1}, \\pi_{E2}, . . . , \\pi_{EN}\\}{πE1,πE2,...,πEN},OPD 目标函数定义为: LOPD(θ)=∑i=1Nwi⋅DKL(πθ∥πEi).(29) L_{\\text{OPD}}(\\theta) = \\sum_{i=1}\^{N} w_i \\cdot D_{\\text{KL}} \\left( \\pi_{\\theta} \\\| \\pi_{Ei} \\right). \\tag{29} LOPD(θ)=i=1∑Nwi⋅DKL(πθ∥πEi).(29) 表 5 \| 用于辅助任务的快速指令特殊令牌。 | 特殊令牌 | 描述 | 格式 | |:-----|:--------------|:--------| | \`\< | action | \>\` | | \`\< | title | \>\` | | \`\< | query | \>\` | | \`\< | authority | \>\` | | \`\< | domain | \>\` | | \`\< | extracted_url | \>` `\< | 在此公式中,wiw_iwi 代表分配给每个专家的权重,通常由专家的相对重要性决定。计算反向 KL 散度 DKL(πθ∥πEi)D_{\\text{KL}} \\left( \\pi_{\\theta} \\\| \\pi_{Ei} \\right)DKL(πθ∥πEi) 需要从学生模型 πθ\\pi_{\\theta}πθ 中采样训练轨迹以保持同策略学习。其基本原理确保统一策略 πθ\\pi_{\\theta}πθ 根据当前任务上下文选择性地从相关专家那里学习(例如,对于数学推理任务与数学专家对齐,对于编程任务与编码专家对齐)。通过这种机制,来自物理上不同的专家权重的知识通过 logits 级别的对齐被整合到一个统一的参数空间中,实际上规避了在传统的权重合并或混合 RL 技术中经常遇到的性能下降。在此阶段,使用覆盖多个领域的十多个教师模型来蒸馏一个单一的学生模型。 在处理上述 OPD 目标时,先前的工作通常将全词汇 KL 损失简化为每个令牌位置的令牌级 KL 估计,并通过将 sg(log⁡πEi(yt∣x,y\100k\|V\| \> 100k∣V∣\>100k 的 logits 是 prohibitive 的,即使 spooled to disk。我们通过在前向传播期间仅在中央缓冲区中缓存教师的最后一层隐藏状态来解决这个问题。在训练时,这些缓存的状态被检索并传递通过相应的预测头模块,以即时重建完整的 logits。这种设计引入了可忽略的重计算开销,同时完全规避了与显式 logits materialization 相关的内存负担。为了减轻教师预测头的 GPU 内存占用,我们在数据分发期间按教师索引对训练样本进行排序。这种安排确保每个不同的教师头在每个小批量中仅加载一次,并且任何时候最多有一个教师头驻留在设备内存中。所有参数和隐藏状态的加载/卸载操作都在后台异步进行,不会阻塞关键路径上的计算。最后,教师和学生 logits 之间的精确 KL 散度使用专用的 TileLang 内核计算,这加速了计算并减少了动态内存分配。 ##### 5.2.3. 可抢占且容错的 Rollout 服务 为了最大化 GPU 资源利用率,同时为高优先级任务实现快速硬件配置,我们的 GPU 集群采用了集群范围的可抢占任务调度器,其中任何正在运行的任务都可能随时被抢占。此外,在大规模 GPU 集群中硬件故障很常见。为此,我们为 RL/OPD rollout 实现了一个可抢占且容错的 LLM 生成服务。 具体来说,我们为每个生成请求实现了一个令牌粒度的预写日志(WAL)。每当为请求生成一个新令牌时,我们立即将其附加到该请求的 WAL 中。在抢占期间,我们暂停推理引擎并保存未完成请求的 KV 缓存。恢复后,我们使用持久化的 WAL 和保存的 KV 缓存继续解码。即使发生致命的硬件错误,我们也可以使用 WAL 中持久化的令牌重新运行预填充阶段,以重建 KV 缓存。 重要的是,从头开始重新生成未完成的请求在数学上是不正确的,因为这引入了长度偏差。因为较短的响应更有可能在中断中幸存下来,从头重新生成会使模型在发生中断时更容易产生较短的序列。如果推理栈是批量不变且确定性的,这个正确性问题也可以通过使用为采样器中的伪随机数生成器生成一致的种子进行重新生成来解决。然而,这种方法仍然会带来重新运行解码阶段的额外成本,使其效率远低于我们的令牌粒度 WAL 方法。 ##### 5.2.4. 为百万令牌上下文扩展 RL 框架 我们引入了针对百万令牌序列上高效 RL 和 OPD 的针对性优化。在 rollout 阶段,我们采用了第 5.2.3 节中详细描述的可抢占且容错的 rollout 服务。对于推理和训练阶段,我们将 rollout 数据格式分解为轻量级元数据和每令牌的重度字段。在数据分发期间,可以加载整个 rollout 数据的元数据以执行全局混洗和打包布局计算。每令牌的重度字段通过共享内存数据加载器加载,以消除节点内数据冗余,并在以小批量粒度消费后立即释放,从而显著减轻 CPU 和 GPU 内存压力。设备上小批次的数量根据工作负载动态确定,从而在计算吞吐量和 I/O 重叠之间实现高效权衡。 ##### 5.2.5. 用于智能体 AI 的沙箱基础设施 为了满足后训练和评估期间智能体 AI 的多样化执行需求,我们构建了一个生产级沙箱平台 DeepSeek Elastic Compute (DSec)。DSec 包含三个 Rust 组件------API 网关 (Apiserver)、每主机代理 (Edge) 和集群监控器 (Watcher)------它们通过自定义 RPC 协议互连,并在 3FS 分布式文件系统 (DeepSeek-AI, 2025) 之上水平扩展。在生产环境中,单个 DSec 集群管理着数十万个并发沙箱实例。 DSec 的设计基于四个观察:(1) 智能体工作负载高度异构,涵盖轻量级函数调用到具有不同操作系统和安全要求的完整软件工程流水线;(2) 环境镜像数量众多且体积庞大,但必须快速加载并支持迭代定制;(3) 高密度部署要求高效的 CPU 和内存利用率;(4) 沙箱生命周期必须与 GPU 训练计划协调,包括抢占和基于检查点的恢复。基于这些观察,我们接下来分别阐述 DSec 的四个核心设计。 **统一接口背后的四个执行底层** 。DSec 暴露一个单一的 Python SDK (libdsec),它抽象了四个执行底层。函数调用将无状态调用分派到预热的容器池,消除了冷启动开销。容器完全兼容 Docker,并利用 EROFS(Gao 等人,2019)按需加载以实现高效的镜像组装。microVM 基于 Firecracker(Agache 等人,2020),为安全敏感、高密度部署增加了 VM 级隔离。fullVM 基于 QEMU(Bellard,2005),支持任意客户操作系统。所有四个共享一个共同的 API 表面------命令执行、文件传输和 TTY 访问------并且在它们之间切换仅需更改参数。 **通过分层存储实现快速镜像加载** 。DSec 通过分层的按需加载协调快速启动与庞大且不断增长的环境镜像语料库。对于容器,基础镜像和文件系统提交作为 3FS 支持、只读的 EROFS 层存储,直接挂载到 overlay 的 lowerdirs 中。我们在挂载时使文件元数据在本地磁盘上立即可用;同时,数据块在请求时从 3FS 获取。对于 microVM,DSec 使用 overlaybd(Li 等人,2020)磁盘格式:只读基础层位于 3FS 上以跨实例共享,而写入则进入本地的写时复制层。此类快照是可链接的,有助于高效版本控制和毫秒级恢复。 **大规模并发下的密度优化** 。为了容纳每个集群数十万个沙箱,DSec 解决了两个资源瓶颈。首先,它减轻了虚拟化环境中重复的页缓存占用,并应用内存回收以实现安全超卖。其次,它减轻了容器运行时中的自旋锁争用,从而降低了每个沙箱的 CPU 开销,显著提高了每主机的打包密度。 **轨迹日志记录和可抢占安全恢复**。DSec 为每个沙箱维护一个全局有序的轨迹日志,持久记录每个命令调用及其结果。该轨迹有三个目的:(1) 客户端快进------当训练任务被抢占时,沙箱资源仍然保留;恢复后,DSec 为先前完成的命令重放缓存的结果,加速任务恢复,同时也防止因重新执行非幂等操作而导致的错误;(2) 细粒度溯源------每个状态变化的来源和相应结果都是可追溯的;(3) 确定性重放------任何历史会话都可以从其轨迹忠实地重现。 #### 5.3. 标准基准评估 ##### 5.3.1. 评估设置 **知识与推理**。知识与推理数据集包括 MMLU-Pro(Wang 等人,2024b)、GPQA(Rein 等人,2023)、Human Last Exam(Phan 等人,2025)、Simple-QA Verified(Haas 等人,2025)、Chinese-SimpleQA(He 等人,2024)、LiveCodeBench-v6(Jain 等人,2024)、CodeForces(内部基准)、HMMT 2026 Feb、Apex(Balunović 等人,2025)、Apex Shortlist(Balunović 等人,2025)、IMOAnswerBench(Luong 等人,2025)和 PutnamBench(Tsoukalas 等人,2024)。 对于代码,我们在 LiveCodeBench-v6 和一个内部 Codeforces 基准上评估 DeepSeek-V4 系列。对于 Codeforces,我们收集了 14 场 Codeforces Division 1 比赛,包含 114 个问题(2025年5月 - 2025年11月)。Elo 评分计算如下。对于每场比赛,我们为每个问题生成 32 个候选解。对于每个问题独立地,我们从这些解中无放回地抽取 10 个,并将它们随机排序以形成提交序列。每个提交都根据领域专家构建的测试套件进行评判。一个已解决问题的得分遵循 OpenAI(2025)的罚分方案:模型获得与解决了同一问题且先前失败尝试次数相同的人类参与者的中位数得分。这会为每个采样的提交序列产生一个比赛总分,然后将其转换为比赛排名,并通过标准的 Codeforces 评分系统进一步转换为估计的评分。比赛级别的预期评分定义为该估计评分在所有可能的 10 个提交的随机选择和排序上的期望。模型的整体评分是所有 14 场比赛中这些上下文级别预期评分的平均值。 对于推理和知识任务,我们将温度设置为 1.0,并为非思考、高和最大模式分别将上下文窗口设置为 8K、128K 和 384K 个令牌。对于数学任务(例如 HMMT、IMOAnswerBench、Apex 和 HLE),我们使用以下模板进行评估:"{问题}\\n请逐步推理,并将最终答案放在 \\boxed{} 中。" 对于 DeepSeek-V4-Pro-Max 在数学任务上,我们使用以下模板来激发更深入的推理:"解决以下问题。问题可能要求你证明一个陈述,或寻求一个答案。如果需要找到答案,你应该提出答案,并且你的最终解决方案也应该是该答案有效的严格证明。\\n\\n{问题}"。 对于形式数学任务,我们在 Lean v4.28.0-rcl(Moura and Ullrich,2021)上的智能体环境中进行评估,可以访问 Lean 编译器和语义战术搜索引擎,最多运行 500 次工具调用,并采用最大推理努力。此外,我们评估了一个计算更密集的流水线,其中首先生成候选的自然语言解决方案并通过自我验证(Shao 等人,2025)进行过滤,然后将保留的解决方案作为指导提供给形式智能体,以证明相应的 Lean 语句。该设计使用非形式推理来改进探索,同时通过形式验证保持严格正确性。只有在两种设置下,严格的验证器 Comparator 都接受该提交时,才将其计为正确。 对于 K2.6 和 GLM-5.1,我们留下了一些空白条目,因为它们的 API 太忙,无法响应我们的查询。 **1M 令牌上下文**。由于 DeepSeek-V4 系列支持 1M 令牌上下文,我们通过选择 OpenAI MRCR(OpenAI,2024b)和 CorpusQA(Lu 等人,2026)作为基准,在长上下文场景中评估模型性能。我们在这些任务上重新评估了 Claude Opus 4.6 和 Gemini 3.1 Pro,目标是标准化所有模型的配置。我们没有评估 GPT-5.4,因为其 API 未能响应我们的大部分查询。 **智能体**。智能体数据集包括 Terminal Bench 2.0(Merrill 等人,2026)、SWE-Verified(OpenAI,2024e)、SWE Multilingual(Yang 等人,2025)、SWE-Pro(Deng 等人,2025)、BrowseComp(Wei 等人,2025)、MCPAtlas 的公共评估集(Bandi 等人,2026)、GDPval-AA(AA,2025;Patwardhan 等人,2025)和 Tool-Decathlon(Li 等人,2025)。 对于代码智能体任务(SWE-Verified、Terminal-Bench、SWE-Pro、SWE Multilingual),我们使用内部开发的评估框架评估 DeepSeek-V4 系列。该框架提供了一组最少的工具------一个 bash 工具和一个文件编辑工具。最大交互步数设置为 500,最大上下文长度设置为 512K 个令牌。关于 Terminal-Bench 2.0,我们承认 GLM-5.1 指出的环境相关问题。尽管如此,我们为了保持一致性,在原始的 Terminal-Bench 2.0 数据集上报告我们的性能。在 Terminal-Bench 2.0 Verified 子集上,DeepSeek-V4-Pro 得分约为 72.0。 对于搜索智能体任务(BrowseComp、带工具的 HLE),我们也使用带有网络搜索和 Python 工具的内部测试平台,并将最大交互步数设置为 500,最大上下文长度设置为 512K 个令牌。对于 BrowseComp,我们使用与 DeepSeek-V3.2 相同的丢弃所有上下文管理策略(DeepSeek-AI,2025)。 ##### 5.3.2. 评估结果 表 6 \| DeepSeek-V4-Pro-Max 与闭源/开源模型之间的比较。"Max"、"xHigh"和"High"表示推理努力。最佳结果以粗体突出显示;第二佳结果以下划线显示。 | 基准 (指标) | Opus-4.6 | GPT-5.4 | Gemini-3.1-Pro | K2.6 Thinking | GLM-5.1 | DS-V4-Pro Max | |:----------------------------|:--------:|:-------:|:--------------:|:-------------:|:-------:|:-------------:| | | Max | | | | | Max xHigh | | MMLU-Pro (EM) | 89.1 | 87.5 | 91.0 | 87.1 | | | | SimpleQA-Verified (Pass@1) | 46.2 | 45.3 | 75.6 | 36.9 | | | | Chinese-SimpleQA (Pass@1) | 76.4 | 76.8 | 85.9 | 75.9 | | | | GPQA Diamond (Pass@1) | 91.3 | 93.0 | 94.3 | 90.5 | | | | HLE (Pass@1) | 40.0 | 39.8 | 44.4 | 36.4 | | | | LiveCodeBench (Pass@1) | 88.8 | - | 91.7 | 89.6 | | | | Codeforces (Rating) | - | 3168 | 3052 | - | | | | HMMT 2026 Feb (Pass@1) | 96.2 | 97.7 | 94.7 | 92.7 | | | | IMOAnswerBench (Pass@1) | 75.3 | 91.4 | 81.0 | 86.0 | | | | Apex (Pass@1) | 34.5 | 54.1 | 60.9 | 24.0 | | | | Apex Shortlist (Pass@1) | 85.9 | 78.1 | 89.1 | 75.5 | | | | MRCR 1M (MMR) | 92.9 | - | 76.3 | - | | | | CorpusQA 1M (ACC) | 71.7 | - | 53.8 | - | | | | Terminal Bench 2.0 (Acc) | 65.4 | 75.1 | 68.5 | 66.7 | | | | SWE Verified (Resolved) | 80.8 | - | 80.6 | 80.2 | | | | SWE Pro (Resolved) | 57.3 | 57.7 | 54.2 | 58.6 | | | | SWE Multilingual (Resolved) | 77.5 | - | - | 76.7 | | | | BrowseComp (Pass@1) | 83.7 | 82.7 | 85.9 | 83.2 | | | | HLE w/ tools (Pass@1) | 53.1 | 52.0 | 51.6 | 54.0 | | | | GDPval-AA (Elo) | 1619 | 1674 | 1314 | 1482 | | | | MCPAtlas Public (Pass@1) | 73.8 | 67.2 | 69.2 | 66.6 | | | | Toolathlon (Pass@1) | 47.2 | 54.6 | 48.8 | 50.0 | | | DeepSeek-V4-Pro-Max 与其他闭源/开源模型的比较呈现在表 6 中。此外,我们评估了 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 的不同模式,结果见表 7。 **知识**。在通用世界知识的评估中,DeepSeek-V4-Pro-Max(DeepSeek-V4-Pro 的最大推理努力模式)在开源大语言模型中建立了新的最先进水平。如 SimpleQA-Verified 所示,DeepSeek-V4-Pro-Max 显著优于所有现有的开源基线,领先幅度达 20 个绝对百分点。尽管取得了这些进步,它目前仍落后于领先的专有模型 Gemini-3.1-Pro。在教育知识和推理领域,DeepSeek-V4-Pro-Max 在 MMLU-Pro、GPQA 和 HLE 基准上略微优于 Kimi 和 GLM,尽管仍落后于领先的专有模型。总的来说,DeepSeek-V4-Pro-Max 在增强开源模型的世界知识能力方面标志着一个重要的里程碑。 此外,在基于知识的任务上,DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 之间存在显著的性能差距;这是预期的,因为更大的参数数量有助于在预训练期间保留更多知识。值得注意的是,当分配更高的推理努力时,两个模型在知识基准上都显示出改进的结果。 表 7 \| DeepSeek-V4 系列不同规模和模式之间的比较。"非思考"、"高"和"最大"表示推理努力。 | 基准 (指标) | DeepSeek-V4-Flash | DeepSeek-V4-Pro | |:----------------------------|:-----------------:|:---------------:| | | 非思考 | 高 | | MMLU-Pro (EM) | 83.0 | 86.4 | | SimpleQA-Verified (Pass@1) | 23.1 | 28.9 | | Chinese-SimpleQA (Pass@1) | 71.5 | 73.2 | | GPQA Diamond (Pass@1) | 71.2 | 87.4 | | HLE (Pass@1) | 8.1 | 29.4 | | LiveCodeBench (Pass@1-COT) | 55.2 | 88.4 | | Codeforces (Rating) | - | 2816 | | HMMT 2026 Feb (Pass@1) | 40.8 | 91.9 | | IMOAnswerBench (Pass@1) | 41.9 | 85.1 | | Apex (Pass@1) | 1.0 | 19.1 | | Apex Shortlist (Pass@1) | 9.3 | 72.1 | | MRCR 1M (MMR) | 37.5 | 76.9 | | CorpusQA 1M (ACC) | 15.5 | 59.3 | | Terminal Bench 2.0 (Acc) | 49.1 | 56.6 | | SWE Verified (Resolved) | 73.7 | 78.6 | | SWE Pro (Resolved) | 49.1 | 52.3 | | SWE Multilingual (Resolved) | 69.7 | 70.2 | | BrowseComp (Pass@1) | - | 53.5 | | HLE w/ tools (Pass@1) | - | 40.3 | | MCPAtlas Public (Pass@1) | 64.0 | 67.4 | | GDPval-AA (Elo) | - | - | | Toolathlon (Pass@1) | 40.7 | 43.5 | **推理**。DeepSeek-V4-Pro-Max 在推理基准上优于所有先前开放模型,并在许多指标上与最先进的闭源模型持平,而较小的 DeepSeek-V4-Flash-Max 在代码和数学推理任务上也超越了先前最好的开源模型 K2.6-Thinking。同时,DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 在编程竞赛中表现出色。根据我们的评估,它们的性能与 GPT-5.4 相当,这是开放模型首次在此任务上匹配闭源模型。在 Codeforces 排行榜上,DeepSeek-V4-Pro-Max 目前在人类参与者中排名第 23 位。DeepSeek-V4 在智能体设置和计算密集型设置下的形式数学任务上也表现出强劲的性能。在智能体设置下,它取得了最先进的结果,如图 8 所示,优于先前的模型,如 Seed Prover(Chen 等人,2025)。使用计算更密集的流水线,性能进一步提高,超越了包括 Aristotle(Achim 等人,2025)在内的系统,并匹配了此设置下的最佳已知结果。 **智能体**。DeepSeek-V4 系列在评估中表现出强大的智能体性能。对于代码智能体任务,DeepSeek-V4-Pro 取得了与 K2.6 和 GLM-5.1 相当的结果,尽管所有这些开放模型仍然落后于它们的闭源对手。DeepSeek-V4-Flash 在编码任务上的表现不如 DeepSeek-V4-Pro,尤其是在 Terminal Bench 2.0 上。在其他智能体评估中也观察到类似的趋势。值得注意的是,DeepSeek-V4-Pro 在 MCPAtlas 和 Toolathlon 上表现良好,这两个评估测试集包含范围广泛的工具和 MCP 服务,表明我们的模型具有出色的泛化能力,并不仅仅在内部框架上表现良好。 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/519a237940c14000aac3ec218179c6ba.png) 图 8 \| 实践和前沿制度下的形式推理。左图:Putnam-200 Pass@8 评估了 PutnamBench(Tsoukalas 等人,2024)的一个固定随机子集,遵循 Seed-Prover 引入的设置;所有模型都在相同的问题集上测试。我们遵循 Seed-Prover 协议,但将专有搜索工具替换为开源的 LeanExplore(Asher,2025),产生了一个具有最少智能体工具和有界采样的轻量级设置。右图:Putnam-2025 探测了规模化混合形式-非形式制度下的数学推理前沿,其中非形式推理与形式验证相结合以暴露差距并提高严谨性;DeepSeek-V4 达到了 120/120 的完美证明。 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/9d492340ce5042eeb4ab45c019fd88ad.png) 图 9 \| DeepSeek-V4 系列在 MRCR 任务上的性能。 **1M 令牌上下文**。DeepSeek-V4-Pro 在衡量上下文内检索的 MRCR 任务上优于 Gemini-3.1-Pro,但仍落后于 Claude Opus 4.6。如图 9 所示,在 128K 上下文窗口内检索性能保持高度稳定。虽然在 128K 标记之后性能下降变得可见,但该模型在 1M 令牌处的检索能力与专有和开源对手相比仍然非常强大。与 MRCR 不同,CorpusQA 更类似于真实场景。评估结果也表明 DeepSeek-V4-Pro 优于 Gemini-3.1-Pro。 **推理努力**。如表 7 所示,在 RL 中采用更长上下文和减少长度惩罚的最大模式,在最具挑战性的任务上优于高模式。图 10 展示了 DeepSeek-V4-Pro、DeepSeek-V4-Flash 和 DeepSeek-V3.2 在代表性推理和智能体任务上的性能和成本比较。通过扩展测试时计算,DeepSeek-V4 系列比其前代模型实现了显著改进。此外,在 HLE 等推理任务上,DeepSeek-V4-Pro 展现出比DeepSeek-V3.2 更高的令牌效率。 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/da55f8b24951428282b634486354b6e3.png) 图 10 \| 按推理努力划分的 HLE 和 Terminal Bench 2.0 性能。"None"表示非思考模式,"Speciale"表示 DeepSeek-V3.2-Speciale 模型。 #### 5.4. 真实世界任务性能 标准化基准通常难以捕捉多样化真实世界任务的复杂性,在测试结果和实际用户体验之间产生了差距。为了弥合这一差距,我们开发了专有的内部指标,优先考虑真实世界使用模式而非传统基准。这种方法确保我们的优化转化为切实的好处。我们的评估框架专门针对 DeepSeek API 和 Chatbot 的主要用例,使模型性能与实际需求保持一致。 ##### 5.4.1. 中文写作 DeepSeek 的主要用例之一是中文写作。我们对功能写作和创意写作进行了严格的评估。表 12 展示了 DeepSeek-V4-Pro 和 Gemini-3.1-Pro 在功能写作任务上的成对比较。这些任务包括常见的日常写作查询,其中提示通常简洁明了。Gemini-3.1-Pro 被选为基线,因为在我们评估中,它是在中文写作方面表现最好的外部模型。结果表明,DeepSeek-V4-Pro 以 62.7%62.7\\%62.7% 对比 34.1%34.1\\%34.1% 的总体胜率优于基线;这主要是因为 Gemini 有时会允许其固有的风格偏好覆盖用户在中文写作场景中的明确要求。 表 13 展示了创意写作比较,它沿着两个轴进行评估:指令遵循和写作质量。与 Gemini-3.1-Pro 相比,DeepSeek-V4-Pro 在指令遵循上达到了 60.0%60.0\\%60.0% 的胜率,在写作质量上达到了 77.5%77.5\\%77.5%,表明在指令遵循上有边际改进,在写作质量上有显著提升。尽管 DeepSeek-V4-Pro 在总体用户案例分析中产生了更优的结果,但仅对最具挑战性的提示(特别是那些涉及高复杂度约束或多轮场景的提示)进行的评估显示,Claude Opus 4.5 相对于 DeepSeek-V4-Pro 仍然保持着性能优势。如表 14 所示,Claude Opus 4.5 达到了 52.0%52.0\\%52.0% 的胜率,而 DeepSeek-V4-Pro 为 45.9%45.9\\%45.9%。 ##### 5.4.2. 搜索 搜索增强的问答是 DeepSeek 聊天机器人的核心能力。在 DeepSeek 网页和应用上,"非思考"模式采用检索增强搜索(RAG),而"思考"模式利用智能体搜索。 **检索增强搜索**。我们对 DeepSeek-V4-Pro 和 DeepSeek-V3.2 在客观和主观问答类别上进行了成对评估。如表 11 所示,DeepSeek-V4-Pro 以显著优势优于 DeepSeek-V3.2,在两个类别上均表现出持续的优势。最显著的提升出现在单值搜索和规划与策略任务上,表明 DeepSeek-V4-Pro 擅长从检索到的上下文中定位精确的事实答案和综合结构化计划。然而,DeepSeek-V3.2 在比较和推荐任务上仍然相对具有竞争力,表明 DeepSeek-V4-Pro 在需要对搜索结果进行平衡、多视角推理的场景中还有改进空间。 **智能体搜索**。与标准 RAG 不同,智能体搜索使模型能够迭代地调用每个查询的搜索和获取工具,从而显著提高整体搜索性能。对于 DeepSeek-Chat 中的思考模式,我们优化了智能体搜索功能,以在预定义的"思考预算"内最大化响应准确性。如表 9 所示,智能体搜索始终优于 RAG,尤其是在复杂任务上。此外,其成本仍然非常高效,智能体搜索仅比标准 RAG 略贵(见表 10)。 ##### 5.4.3. 白领任务 为了严格评估模型在复杂企业生产力场景中的效用,我们构建了一个包含 30 个高级中文专业任务的综合套件。这些工作流程故意包含高层次的认知需求,包括深入的信息分析、全面的文档生成和细致的文档编辑,跨越了 13 个关键行业(如金融、教育、法律和科技)的多样化领域。评估是在一个内部智能体工具平台上进行的,该平台配备了基本工具,包括 Bash 和网络搜索。 鉴于这些任务的开放性,自动化指标通常无法捕捉到高质量响应的细微差别。因此,我们进行了人工评估,比较 DeepSeek-V4-Pro-Max 和 Opus-4.6-Max 的性能。注释者盲目地评估模型输出的四个维度: * **任务完成度**:核心问题是否成功解决。 * **指令遵循**:是否遵守特定约束和指令。 * **内容质量**:事实准确性、逻辑连贯性和专业语气。 * **格式美观度**:布局可读性和视觉呈现。 如图 11 所示,DeepSeek-V4-Pro-Max 在多样的中文白领任务上优于 Opus-4.6-Max,实现了令人印象深刻的 63%63\\%63% 非损失率,并在分析、生成和编辑任务上展现出持续的优势。图 12 所示的详细维度得分突显了该模型在任务完成度和内容质量方面的主要优势。具体来说,DeepSeek-V4-Pro-Max 通过频繁提供补充见解和自我验证步骤,主动预判用户的隐含意图。它还在生成长文本方面表现出色,提供深入、连贯的叙述,而不是依赖 Opus-4.6-Max 经常产生的过于简单的要点。此外,该模型严格遵守正式的专业惯例,例如标准的中文层级编号。然而,在指令遵循方面,它偶尔会忽略特定的格式约束,略微落后于 Opus。此外,该模型不太擅长将冗长的文本输入提炼为简洁的摘要。最后,其格式美观度在演示幻灯片的整体视觉设计方面仍有很大的改进空间。图 13、14 和 15 展示了几个测试案例;由于某些输出长度过长,仅显示部分页面。 图 11 \| 分析、生成、编辑任务以及整体性能的胜率比较。 图 12 \| 详细维度得分,包括任务完成度、内容质量、格式美观度和指令遵循。 图 13 \| 一个需要为知名珍珠奶茶品牌和北京地铁起草联合营销提案的任务输出示例。 ##### 5.4.4. 代码智能体 为了对我们的代码智能体能力进行基准测试,我们从真实的内部研发工作负载中策划了任务。我们从 50+50+50+ 名内部工程师那里收集了 ∼200\\sim 200∼200 个具有挑战性的任务,涵盖功能开发、错误修复、重构和诊断,涉及多种技术栈,包括 PyTorch、CUDA、Rust 和 C++\\mathbb{C} + +C++。每个任务都附有其原始仓库、相应的执行环境以及人工注释的评分标准;经过严格的质量过滤后,保留了 30 个任务作为评估集。如表 8 所示,DeepSeek-V4-Pro 显著优于 Claude Sonnet 4.5,并接近 Claude Opus 4.5 的水平。 表 8 \| 研发编码基准比较(包含外部模型仅用于评估目的)。 | 模型 | Haiku 4.5 | Sonnet 4.5 | DeepSeek-V4-Pro-Max | Opus 4.5 | Opus 4.5 Thinking | Opus 4.6 Thinking | |:--------|:---------:|:----------:|:-------------------:|:--------:|:-----------------:|:-----------------:| | 通过率 (%) | 13 | 47 | 67 | 70 | 73 | 80 | 在一项对 DeepSeek 开发者和研究人员(N=85N = 85N=85)的调查中------他们都有在日常工作中使用 DeepSeek-V4-Pro 进行智能体编码的经验------询问与其他前沿模型相比,DeepSeek-V4-Pro 是否已准备好作为他们的默认和主要编码模型,52%52\\%52% 回答是,39%39\\%39% 倾向于肯定,不到 9%9\\%9% 回答否。受访者发现 DeepSeek-V4-Pro 在大多数任务上都能提供令人满意的结果,但指出存在琐碎的错误、对模糊提示的误解以及偶尔的过度思考。 ### 6. 结论、局限性与未来方向 在这项工作中,我们展示了 DeepSeek-V4 系列的预览版本,旨在打造突破超长上下文处理效率障碍的下一代大语言模型。通过结合集成 CSA 和 HCA 的混合注意力架构,DeepSeek-V4 系列在长序列效率方面实现了巨大飞跃。架构创新与广泛的基础设施优化相结合,实现了对百万令牌上下文的高效原生支持,并为未来的测试时扩展、长期任务以及在线学习等新兴范式奠定了必要的基础。评估结果表明,DeepSeek-V4-Pro-Max(DeepSeek-V4-Pro 的最大推理努力模式)重新定义了开放模型的最先进水平。它在知识基准上显著优于先前的开源模型,实现了接近前沿专有模型的卓越推理性能,并提供了具有竞争力的智能体能力。同时,DeepSeek-V4-Flash-Max 在保持高度成本效益架构的同时,取得了与领先闭源模型相当的推理性能。我们相信 DeepSeek-V4 系列为开放模型开启了百万长度上下文的新时代,并为实现更高的效率、规模和智能铺平了道路。 在追求极致长上下文效率的过程中,DeepSeek-V4 系列采用了大胆的架构设计。为了最小化风险,我们保留了许多经过初步验证的组件和技巧,虽然有效,但也使得架构相对复杂。在未来的迭代中,我们将进行更全面、更原则性的研究,将架构提炼到最核心的设计,使其在不牺牲性能的前提下更加优雅。同时,尽管预期路由和 SwiGLU 钳位已被证明能有效缓解训练不稳定性,但其基本原理仍未得到充分理解。我们将积极研究训练稳定性的基础性问题,并加强内部指标监控,旨在实现更原则性、更具预测性的大规模稳定训练。 此外,除了 MoE 和稀疏注意力架构,我们还将主动探索新的维度上的模型稀疏性------例如更稀疏的嵌入模块(Cheng 等人,2026)------以在不影响能力的情况下进一步提高计算和内存效率。我们还将持续研究低延迟架构和系统技术,使长上下文的部署和交互响应更快。此外,我们认识到长期、多轮智能体任务的重要性和实用价值,并将继续朝这个方向迭代和探索。我们也在努力将多模态能力整合到我们的模型中。最后,我们致力于开发更好的数据策划和合成策略,以持续增强模型在日益广泛的场景和任务中的智能性、鲁棒性和实用可用性。

相关推荐
java小吕布6 小时前
Hermes Agent:自带学习闭环的开源 AI 智能体,一键部署全平台可用
人工智能·学习·开源
TE-茶叶蛋6 小时前
从查询到生成:RAG 优化策略全指南
人工智能
大模型任我行6 小时前
人大:揭示大模型推理的几何约束机制
人工智能·语言模型·自然语言处理·论文笔记
木子日一6 小时前
一、LangChain-ts系列学习——环境安装及配置
人工智能
wanger616 小时前
AI Agent
前端·javascript·人工智能
AI袋鼠帝6 小时前
内置Seedance2.0等国产顶级模型,这款小白轻松用好的Agent太顶了!
人工智能
牛奶6 小时前
Google 说 AI 能"解决所有疾病",我差点就信了
人工智能·机器人·aigc
掌动智能6 小时前
从“感知”到“认知”:RunnerAgent如何重塑UI自动化的稳定边界
人工智能·ui·自动化
玄米乌龙茶1236 小时前
LLM成长笔记(十):多模态应用开发
人工智能·笔记·语音识别