DeepSeek-V4: 迈向高效百万令牌上下文智能

注意:DeepSeek-V4-Pro-DSpark 并非新模型,而是在原有检查点基础上增加了推测解码模块的相同模型。最小推理示例可在inference文件夹中查看。详情请参考:https://github.com/deepseek-ai/DeepSpec

简介

我们推出DeepSeek-V4 系列的预览版本,包含两款强大的混合专家(MoE)语言模型------DeepSeek-V4-Pro (1.6万亿参数,激活490亿参数)和DeepSeek-V4-Flash (2840亿参数,激活130亿参数),两者均支持百万级上下文长度

DeepSeek-V4系列在架构和优化方面进行了多项关键升级:

  1. 混合注意力架构 :设计了结合压缩稀疏注意力(CSA)和高度压缩注意力(HCA)的混合机制,极大提升了长上下文效率。在百万token上下文场景下,DeepSeek-V4-Pro的单token推理FLOPs仅需DeepSeek-V3.2的27% ,KV缓存仅需10%
  2. 流形约束超连接(mHC):通过mHC增强传统残差连接,在保持模型表达力的同时提升跨层信号传播的稳定性。
  3. μ子优化器:采用μ子优化器实现更快收敛和更高训练稳定性。

两款模型均在超过32万亿多样化高质量token上进行预训练,并经过完整的训练后流程。后训练采用两阶段范式:先通过SFT和GRPO强化学习独立培养领域专家,再通过策略蒸馏统一整合,将跨领域能力融合至单一模型。

DeepSeek-V4-Pro-Max 作为DeepSeek-V4-Pro的最大推理效能模式,显著提升了开源模型的知识能力,稳居当前最佳开源模型地位。其在编程基准测试中表现顶尖,并在推理和智能体任务上大幅缩小与闭源领先模型的差距。而DeepSeek-V4-Flash-Max在增加思考预算时可达到接近Pro版的推理性能,但由于参数规模较小,在纯知识任务和最复杂智能体工作流上略逊一筹。

模型下载

模型 总参数量 激活参数量 上下文长度 精度 下载链接
DeepSeek-V4-Flash-Base 2840亿 130亿 100万 FP8混合精度 HuggingFace | ModelScope
DeepSeek-V4-Flash 2840亿 130亿 100万 FP4+FP8混合精度* HuggingFace | ModelScope
DeepSeek-V4-Pro-Base 1.6万亿 490亿 100万 FP8混合精度 HuggingFace | ModelScope
DeepSeek-V4-Pro 1.6万亿 490亿 100万 FP4+FP8混合精度* HuggingFace | ModelScope

*FP4+FP8混合精度:MoE专家参数采用FP4精度,其他大部分参数采用FP8精度。

评估结果

基础模型

测试集(指标) 样本数 DeepSeek-V3.2-Base DeepSeek-V4-Flash-Base DeepSeek-V4-Pro-Base
架构 - MoE MoE MoE
激活参数量 - 370亿 130亿 490亿
总参数量 - 6710亿 2840亿 1.6万亿
世界知识
AGIEval(精确匹配) 0样本 80.1 82.6 83.1
MMLU(精确匹配) 5样本 87.8 88.7 90.1
MMLU-Redux(精确匹配) 5样本 87.5 89.4 90.8
MMLU-Pro(精确匹配) 5样本 65.5 68.3 73.5
MMMLU(精确匹配) 5样本 87.9 88.8 90.3
C-Eval(精确匹配) 5样本 90.4 92.1 93.1
CMMLU(精确匹配) 5样本 88.9 90.4 90.8
MultiLoKo(精确匹配) 5样本 38.7 42.2 51.1
Simple-QA验证集(精确匹配) 25样本 28.3 30.1 55.2
SuperGPQA(精确匹配) 5样本 45.0 46.5 53.9
FACTS参数化(精确匹配) 25样本 27.1 33.9 62.6
TriviaQA(精确匹配) 5样本 83.3 82.8 85.6
语言与推理
BBH(精确匹配) 3样本 87.6 86.9 87.5
DROP(F1值) 1样本 88.2 88.6 88.7
HellaSwag(精确匹配) 0样本 86.4 85.7 88.0
WinoGrande(精确匹配) 0样本 78.9 79.5 81.5
CLUEWSC(精确匹配) 5样本 83.5 82.2 85.2
代码与数学
BigCodeBench(通过率@1) 3样本 63.9 56.8 59.2
HumanEval(通过率@1) 0样本 62.8 69.5 76.8
GSM8K(精确匹配) 8样本 91.1 90.8 92.6
MATH(精确匹配) 4样本 60.5 57.4 64.5
MGSM(精确匹配) 8样本 81.3 85.7 84.4
CMath(精确匹配) 3样本 92.6 93.6 90.9
长文本理解
LongBench-V2(精确匹配) 1样本 40.2 44.7 51.5

指导模型

DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均支持三种推理模式:

推理模式 特点 典型用例 响应格式
非思考模式 快速、直观的响应 日常任务、低风险决策 </think> 总结
高思考模式 有意识的逻辑分析,较慢但更准确 复杂问题解决、规划 <think> 思考 </think> 总结
极限思考模式 将推理能力发挥到极致 探索模型推理能力边界 特殊系统提示 + <think> 思考 </think> 总结
DeepSeek-V4-Pro-Max 与前沿模型对比
基准测试(指标) Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max
知识与推理
MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5
SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9
Chinese-SimpleQA (Pass@1) 76.4 76.8 85.9 75.9 75.0 84.4
GPQA Diamond (Pass@1) 91.3 93.0 94.3 90.5 86.2 90.1
HLE (Pass@1) 40.0 39.8 44.4 36.4 34.7 37.7
LiveCodeBench (Pass@1) 88.8 - 91.7 89.6 - 93.5
Codeforces (Rating) - 3168 3052 - - 3206
HMMT 2026 Feb (Pass@1) 96.2 97.7 94.7 92.7 89.4 95.2
IMOAnswerBench (Pass@1) 75.3 91.4 81.0 86.0 83.8 89.8
Apex (Pass@1) 34.5 54.1 60.9 24.0 11.5 38.3
Apex Shortlist (Pass@1) 85.9 78.1 89.1 75.5 72.4 90.2
长上下文
MRCR 1M (MMR) 92.9 - 76.3 - - 83.5
CorpusQA 1M (ACC) 71.7 - 53.8 - - 62.0
代理能力
Terminal Bench 2.0 (Acc) 65.4 75.1 68.5 66.7 63.5 67.9
SWE Verified (Resolved) 80.8 - 80.6 80.2 - 80.6
SWE Pro (Resolved) 57.3 57.7 54.2 58.6 58.4 55.4
SWE Multilingual (Resolved) 77.5 - - 76.7 73.3 76.2
BrowseComp (Pass@1) 83.7 82.7 85.9 83.2 79.3 83.4
HLE w/ tools (Pass@1) 53.1 52.0 51.6 54.0 50.4 48.2
GDPval-AA (Elo) 1619 1674 1314 1482 1535 1554
MCPAtlas Public (Pass@1) 73.8 67.2 69.2 66.6 71.8 73.6
Toolathlon (Pass@1) 47.2 54.6 48.8 50.0 40.7 51.8
模式间对比
基准测试(指标) V4-Flash 非思考模式 V4-Flash 高思考模式 V4-Flash 极限模式 V4-Pro 非思考模式 V4-Pro 高思考模式 V4-Pro 极限模式
知识与推理
MMLU-Pro (EM) 83.0 86.4 86.2 82.9 87.1 87.5
SimpleQA-Verified (Pass@1) 23.1 28.9 34.1 45.0 46.2 57.9
Chinese-SimpleQA (Pass@1) 71.5 73.2 78.9 75.8 77.7 84.4
GPQA Diamond (Pass@1) 71.2 87.4 88.1 72.9 89.1 90.1
HLE (Pass@1) 8.1 29.4 34.8 7.7 34.5 37.7
LiveCodeBench (Pass@1) 55.2 88.4 91.6 56.8 89.8 93.5
Codeforces (Rating) - 2816 3052 - 2919 3206
HMMT 2026 Feb (Pass@1) 40.8 91.9 94.8 31.7 94.0 95.2
IMOAnswerBench (Pass@1) 41.9 85.1 88.4 35.3 88.0 89.8
Apex (Pass@1) 1.0 19.1 33.0 0.4 27.4 38.3
Apex Shortlist (Pass@1) 9.3 72.1 85.7 9.2 85.5 90.2
长上下文
MRCR 1M (MMR) 37.5 76.9 78.7 44.7 83.3 83.5
CorpusQA 1M (ACC) 15.5 59.3 60.5 35.6 56.5 62.0
代理能力
Terminal Bench 2.0 (Acc) 49.1 56.6 56.9 59.1 63.3 67.9
SWE Verified (Resolved) 73.7 78.6 79.0 73.6 79.4 80.6
SWE Pro (Resolved) 49.1 52.3 52.6 52.1 54.4 55.4
SWE Multilingual (Resolved) 69.7 70.2 73.3 69.8 74.1 76.2
BrowseComp (Pass@1) - 53.5 73.2 - 80.4 83.4
HLE w/ tools (Pass@1) - 40.3 45.1 - 44.7 48.2
MCPAtlas (Pass@1) 64.0 67.4 69.0 69.4 74.2 73.6
GDPval-AA (Elo) - - 1395 - - 1554
Toolathlon (Pass@1) 40.7 43.5 47.8 46.3 49.0 51.8

对话模板

本次发布未提供 Jinja 格式的对话模板,而是提供了一个专用的 encoding 文件夹,其中包含 Python 脚本和测试用例,演示如何将 OpenAI 兼容格式的消息编码为模型的输入字符串,以及如何解析模型的文本输出。完整文档请参考 encoding 文件夹。

简要示例:

python 复制代码
from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "hello"},
    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
    {"role": "user", "content": "1+1=?"}
]

# messages -> string
prompt = encode_messages(messages, thinking_mode="thinking")

# string -> tokens
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Pro")
tokens = tokenizer.encode(prompt)

本地运行指南

请参阅 inference 文件夹获取在本地运行DeepSeek-V4的详细说明,包括模型权重转换和交互式聊天演示。

对于本地部署,我们建议将采样参数设置为temperature = 1.0, top_p = 1.0。对于Think Max推理模式,我们建议将上下文窗口设置为至少384K tokens。

许可证

本代码库及模型权重采用 MIT许可证 授权。

联系我们

如有任何疑问,请提交问题或通过service@deepseek.com与我们联系。