DeepSeek-V4: 迈向高效百万令牌上下文智能

注意：DeepSeek-V4-Pro-DSpark 并非新模型，而是在原有检查点基础上增加了推测解码模块的相同模型。最小推理示例可在inference文件夹中查看。详情请参考：https://github.com/deepseek-ai/DeepSpec

简介

我们推出DeepSeek-V4 系列的预览版本，包含两款强大的混合专家（MoE）语言模型------DeepSeek-V4-Pro （1.6万亿参数，激活490亿参数）和DeepSeek-V4-Flash （2840亿参数，激活130亿参数），两者均支持百万级上下文长度。

DeepSeek-V4系列在架构和优化方面进行了多项关键升级：

混合注意力架构 ：设计了结合压缩稀疏注意力（CSA）和高度压缩注意力（HCA）的混合机制，极大提升了长上下文效率。在百万token上下文场景下，DeepSeek-V4-Pro的单token推理FLOPs仅需DeepSeek-V3.2的27% ，KV缓存仅需10%。
流形约束超连接（mHC）：通过mHC增强传统残差连接，在保持模型表达力的同时提升跨层信号传播的稳定性。
μ子优化器：采用μ子优化器实现更快收敛和更高训练稳定性。

两款模型均在超过32万亿多样化高质量token上进行预训练，并经过完整的训练后流程。后训练采用两阶段范式：先通过SFT和GRPO强化学习独立培养领域专家，再通过策略蒸馏统一整合，将跨领域能力融合至单一模型。

DeepSeek-V4-Pro-Max 作为DeepSeek-V4-Pro的最大推理效能模式，显著提升了开源模型的知识能力，稳居当前最佳开源模型地位。其在编程基准测试中表现顶尖，并在推理和智能体任务上大幅缩小与闭源领先模型的差距。而DeepSeek-V4-Flash-Max在增加思考预算时可达到接近Pro版的推理性能，但由于参数规模较小，在纯知识任务和最复杂智能体工作流上略逊一筹。

模型下载

模型	总参数量	激活参数量	上下文长度	精度	下载链接
DeepSeek-V4-Flash-Base	2840亿	130亿	100万	FP8混合精度	HuggingFace \| ModelScope
DeepSeek-V4-Flash	2840亿	130亿	100万	FP4+FP8混合精度*	HuggingFace \| ModelScope
DeepSeek-V4-Pro-Base	1.6万亿	490亿	100万	FP8混合精度	HuggingFace \| ModelScope
DeepSeek-V4-Pro	1.6万亿	490亿	100万	FP4+FP8混合精度*	HuggingFace \| ModelScope

*FP4+FP8混合精度：MoE专家参数采用FP4精度，其他大部分参数采用FP8精度。

评估结果

基础模型

测试集（指标）	样本数	DeepSeek-V3.2-Base	DeepSeek-V4-Flash-Base	DeepSeek-V4-Pro-Base
架构	-	MoE	MoE	MoE
激活参数量	-	370亿	130亿	490亿
总参数量	-	6710亿	2840亿	1.6万亿
世界知识
AGIEval（精确匹配）	0样本	80.1	82.6	83.1
MMLU（精确匹配）	5样本	87.8	88.7	90.1
MMLU-Redux（精确匹配）	5样本	87.5	89.4	90.8
MMLU-Pro（精确匹配）	5样本	65.5	68.3	73.5
MMMLU（精确匹配）	5样本	87.9	88.8	90.3
C-Eval（精确匹配）	5样本	90.4	92.1	93.1
CMMLU（精确匹配）	5样本	88.9	90.4	90.8
MultiLoKo（精确匹配）	5样本	38.7	42.2	51.1
Simple-QA验证集（精确匹配）	25样本	28.3	30.1	55.2
SuperGPQA（精确匹配）	5样本	45.0	46.5	53.9
FACTS参数化（精确匹配）	25样本	27.1	33.9	62.6
TriviaQA（精确匹配）	5样本	83.3	82.8	85.6
语言与推理
BBH（精确匹配）	3样本	87.6	86.9	87.5
DROP（F1值）	1样本	88.2	88.6	88.7
HellaSwag（精确匹配）	0样本	86.4	85.7	88.0
WinoGrande（精确匹配）	0样本	78.9	79.5	81.5
CLUEWSC（精确匹配）	5样本	83.5	82.2	85.2
代码与数学
BigCodeBench（通过率@1）	3样本	63.9	56.8	59.2
HumanEval（通过率@1）	0样本	62.8	69.5	76.8
GSM8K（精确匹配）	8样本	91.1	90.8	92.6
MATH（精确匹配）	4样本	60.5	57.4	64.5
MGSM（精确匹配）	8样本	81.3	85.7	84.4
CMath（精确匹配）	3样本	92.6	93.6	90.9
长文本理解
LongBench-V2（精确匹配）	1样本	40.2	44.7	51.5

指导模型

DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均支持三种推理模式：

推理模式	特点	典型用例	响应格式
非思考模式	快速、直观的响应	日常任务、低风险决策	`</think>` 总结
高思考模式	有意识的逻辑分析，较慢但更准确	复杂问题解决、规划	`<think>` 思考 `</think>` 总结
极限思考模式	将推理能力发挥到极致	探索模型推理能力边界	特殊系统提示 + `<think>` 思考 `</think>` 总结

DeepSeek-V4-Pro-Max 与前沿模型对比

基准测试（指标）	Opus-4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High	K2.6 Thinking	GLM-5.1 Thinking	DS-V4-Pro Max
知识与推理
MMLU-Pro (EM)	89.1	87.5	91.0	87.1	86.0	87.5
SimpleQA-Verified (Pass@1)	46.2	45.3	75.6	36.9	38.1	57.9
Chinese-SimpleQA (Pass@1)	76.4	76.8	85.9	75.9	75.0	84.4
GPQA Diamond (Pass@1)	91.3	93.0	94.3	90.5	86.2	90.1
HLE (Pass@1)	40.0	39.8	44.4	36.4	34.7	37.7
LiveCodeBench (Pass@1)	88.8	-	91.7	89.6	-	93.5
Codeforces (Rating)	-	3168	3052	-	-	3206
HMMT 2026 Feb (Pass@1)	96.2	97.7	94.7	92.7	89.4	95.2
IMOAnswerBench (Pass@1)	75.3	91.4	81.0	86.0	83.8	89.8
Apex (Pass@1)	34.5	54.1	60.9	24.0	11.5	38.3
Apex Shortlist (Pass@1)	85.9	78.1	89.1	75.5	72.4	90.2
长上下文
MRCR 1M (MMR)	92.9	-	76.3	-	-	83.5
CorpusQA 1M (ACC)	71.7	-	53.8	-	-	62.0
代理能力
Terminal Bench 2.0 (Acc)	65.4	75.1	68.5	66.7	63.5	67.9
SWE Verified (Resolved)	80.8	-	80.6	80.2	-	80.6
SWE Pro (Resolved)	57.3	57.7	54.2	58.6	58.4	55.4
SWE Multilingual (Resolved)	77.5	-	-	76.7	73.3	76.2
BrowseComp (Pass@1)	83.7	82.7	85.9	83.2	79.3	83.4
HLE w/ tools (Pass@1)	53.1	52.0	51.6	54.0	50.4	48.2
GDPval-AA (Elo)	1619	1674	1314	1482	1535	1554
MCPAtlas Public (Pass@1)	73.8	67.2	69.2	66.6	71.8	73.6
Toolathlon (Pass@1)	47.2	54.6	48.8	50.0	40.7	51.8

模式间对比

基准测试（指标）	V4-Flash 非思考模式	V4-Flash 高思考模式	V4-Flash 极限模式	V4-Pro 非思考模式	V4-Pro 高思考模式	V4-Pro 极限模式
知识与推理
MMLU-Pro (EM)	83.0	86.4	86.2	82.9	87.1	87.5
SimpleQA-Verified (Pass@1)	23.1	28.9	34.1	45.0	46.2	57.9
Chinese-SimpleQA (Pass@1)	71.5	73.2	78.9	75.8	77.7	84.4
GPQA Diamond (Pass@1)	71.2	87.4	88.1	72.9	89.1	90.1
HLE (Pass@1)	8.1	29.4	34.8	7.7	34.5	37.7
LiveCodeBench (Pass@1)	55.2	88.4	91.6	56.8	89.8	93.5
Codeforces (Rating)	-	2816	3052	-	2919	3206
HMMT 2026 Feb (Pass@1)	40.8	91.9	94.8	31.7	94.0	95.2
IMOAnswerBench (Pass@1)	41.9	85.1	88.4	35.3	88.0	89.8
Apex (Pass@1)	1.0	19.1	33.0	0.4	27.4	38.3
Apex Shortlist (Pass@1)	9.3	72.1	85.7	9.2	85.5	90.2
长上下文
MRCR 1M (MMR)	37.5	76.9	78.7	44.7	83.3	83.5
CorpusQA 1M (ACC)	15.5	59.3	60.5	35.6	56.5	62.0
代理能力
Terminal Bench 2.0 (Acc)	49.1	56.6	56.9	59.1	63.3	67.9
SWE Verified (Resolved)	73.7	78.6	79.0	73.6	79.4	80.6
SWE Pro (Resolved)	49.1	52.3	52.6	52.1	54.4	55.4
SWE Multilingual (Resolved)	69.7	70.2	73.3	69.8	74.1	76.2
BrowseComp (Pass@1)	-	53.5	73.2	-	80.4	83.4
HLE w/ tools (Pass@1)	-	40.3	45.1	-	44.7	48.2
MCPAtlas (Pass@1)	64.0	67.4	69.0	69.4	74.2	73.6
GDPval-AA (Elo)	-	-	1395	-	-	1554
Toolathlon (Pass@1)	40.7	43.5	47.8	46.3	49.0	51.8

对话模板

本次发布未提供 Jinja 格式的对话模板，而是提供了一个专用的 encoding 文件夹，其中包含 Python 脚本和测试用例，演示如何将 OpenAI 兼容格式的消息编码为模型的输入字符串，以及如何解析模型的文本输出。完整文档请参考 encoding 文件夹。

简要示例：

python 复制代码

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "hello"},
    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
    {"role": "user", "content": "1+1=?"}
]

# messages -> string
prompt = encode_messages(messages, thinking_mode="thinking")

# string -> tokens
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Pro")
tokens = tokenizer.encode(prompt)

本地运行指南

请参阅 inference 文件夹获取在本地运行DeepSeek-V4的详细说明，包括模型权重转换和交互式聊天演示。

对于本地部署，我们建议将采样参数设置为temperature = 1.0, top_p = 1.0。对于Think Max推理模式，我们建议将上下文窗口设置为至少384K tokens。

许可证

本代码库及模型权重采用 MIT许可证授权。

联系我们

如有任何疑问，请提交问题或通过service@deepseek.com与我们联系。