大家好,我是张大鹏,10 年全栈开发经验,目前在做 AI 在线教育培训。2026 年 4 月 24 日,DeepSeek 无预警发布了 V4 系列大模型,包含 V4-Pro(1.6 万亿参数)和 V4-Flash(2840 亿参数)两个版本。这是 DeepSeek 自 2025 年初 R1 模型以来最大的一次发布。本文从技术架构、性能表现、国产化意义、实际使用等多个维度进行深度解析。
一、DeepSeek V4 是什么?
DeepSeek V4 是深度求索(DeepSeek)于 2026 年 4 月 24 日发布的新一代大语言模型系列。这是目前全球最大的开源大模型(V4-Pro 1.6 万亿参数),以 MIT 许可证完全开放权重。
双版本定位
DeepSeek V4 采用双版本策略,同时发布 Pro 和 Flash 两个模型,满足不同场景需求:
| 对比项 | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| 总参数 | 1.6 万亿(1.6T) | 2840 亿(284B) |
| 激活参数 | 490 亿(49B) | 130 亿(13B) |
| 架构 | MoE(混合专家) | MoE(混合专家) |
| 上下文窗口 | 100 万 tokens | 100 万 tokens |
| 最大输出 | 384K tokens | 384K tokens |
| 预训练数据 | 33T tokens | 32T tokens |
| 许可证 | MIT 开源 | MIT 开源 |
| 模态 | 纯文本(多模态开发中) | 纯文本(多模态开发中) |
一个关键信息: Pro 和 Flash 的架构基本一致,区别在于规模。Flash 相当于 Pro 的"瘦身版",参数量约为 1/6,但性能保持得非常接近。
时间线
| 时间 | 事件 |
|---|---|
| 2026-04-24 | V4 预览版发布,权重开源 |
| 2026-04-25 | NVIDIA Blackwell 全面适配 |
| 2026-04-28 | SuperCLUE 中文测评登顶国内第一 |
| 2026-07-24 | 旧 API 模型名(deepseek-chat / deepseek-reasoner)停止使用 |
二、三个范式级架构创新
DeepSeek V4 不仅仅是"更大的模型",它在架构层面做了三个重要的创新。这些创新直接回答了"如何在有限算力下做出更强模型"这个核心问题。
2.1 混合注意力机制:让百万上下文真正可用
大模型支持百万 token 上下文并不难------直接把窗口撑大就行。难的是让它在百万上下文下还能跑得动、跑得起。
V4 之前的模型,上下文从 128K 扩展到 1M,计算量和显存会暴增 8 倍以上。DeepSeek V4 通过三种注意力机制的组合解决了这个问题:
HCA(重度压缩注意力)------"广角镜"
- 将 128 个 token 压缩为 1 个超级概念块
- 100 万 token 被压缩到约 8000 个块
- 负责全局信息的概览
CSA(压缩稀疏注意力)------"长焦镜"
- 先轻度压缩(4 个 token 合为 1 个)
- 再选择最相关的 1024 个块进行精确关注
- 保留关键细节
SWA(滑动窗口注意力)------"放大镜"
- 保留最后 128 个 token 的未压缩原始信息
- 确保局部上下文的精确度
打个比方:读一本 100 万字的书,人类也是先扫目录(HCA),再看重点章节(CSA),最后精读关键段落(SWA)。
效果对比(与 V3.2 在百万上下文下):
| 指标 | V4-Pro | V4-Flash |
|---|---|---|
| 计算量 | 仅 V3.2 的 27% | 仅 V3.2 的 10% |
| 显存占用 | 仅 V3.2 的 10% | 仅 V3.2 的 7% |
百万上下文不再是"富人专属"。V4-Flash 跑百万上下文的成本,甚至比 V3.2 跑 128K 还低。
2.2 OPD + GRM 训练范式:全方位无短板
传统大模型训练经常面临"偏科"问题------数学强的模型写文章不行,写文章好的模型代码能力弱。这是因为不同能力在训练时相互干扰(alignment tax)。
DeepSeek V4 用两阶段方案解决:
第一阶段:OPD(On-Policy Distillation)
- 独立训练 10+ 个领域专家模型(数学、代码、写作、STEM......)
- 每个模型专注于一个领域,做到极致
- 通过全词汇 logit 蒸馏将所有能力融合到单一模型
第二阶段:GRM(生成式奖励模型)
- 传统 RLHF 只给一个打分(比如 0.85),模型不知道哪里错了
- GRM 会输出详细的推理过程:"这里公式推导正确,但第二步的系数代入有误"
- 相当于从"阅卷老师打分"升级为"一对一辅导反馈"
结果: 数学、代码、写作、Agent 任务------所有领域均匀提升,不存在明显的短板。
2.3 mHC:让 61 层网络的信息畅通无阻
深度神经网络有一个经典问题:层数越深,梯度越容易消失或爆炸。V4-Pro 有 61 层 transformer,如果信号传递不畅,深层基本白训。
mHC(流形约束超连接)的解决方案很数学------用 Sinkhorn-Knopp 迭代 生成双随机矩阵,确保信息在层间传递时既不会衰减也不会失控。
这个技术只增加了 6.7% 的计算开销,但让 61 层网络的信息传递效率达到了接近理论极限。
三、性能表现:稳居国产第一
3.1 中文能力 SuperCLUE 登顶
2026 年 4 月 28 日,SuperCLUE 中文大模型测评发布:
| 版本 | 综合得分 | 国内排名 |
|---|---|---|
| V4-Pro | 70.98 分 | 第 1 名 |
| V4-Flash | 68.82 分 | 第 2 名 |
六大维度涵盖:数学推理、科学推理、代码生成、智能体任务规划、指令遵循、幻觉控制。
Pro 版相比 V3.2 的提升幅度非常惊人:
- 智能体能力提升 +20 分
- 数学推理提升 +10 分
- 指令遵循提升 +12 分
3.2 国际基准测试
| 基准 | V4-Pro | V4-Flash | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| MMLU-Pro | 87.5 | 86.2 | 89.1 | 91.0 |
| GPQA Diamond | 90.1 | 88.1 | 91.3 | 94.3 |
| LiveCodeBench | 93.5 | 91.6 | --- | --- |
| Codeforces Rating | 3206 | 3052 | --- | --- |
| SWE-bench Verified | 80.6% | 79.0% | --- | --- |
| HMMT 2026 Feb 数学 | 95.2 | 94.8 | 96.2 | 94.7 |
关键观察:
- 代码能力是 V4 的最强项。Codeforces 3206 Elo 评级已经达到全球竞赛选手的前 0.1%
- SWE-bench 80.6% 意味着在真实的软件工程任务中,V4-Pro 能独立修复 80% 以上的 bug
- 整体知识能力与 GPT-5.4、Gemini 3.1 Pro 存在约 3-6 个月的差距,但在部分代码任务上已经打平甚至超越
3.3 智能体(Agent)能力
Agent 能力是 DeepSeek V4 的重点优化方向。Hermes Agent 其实早已内置了对 DeepSeek 的原生支持:
| Agent 基准 | V4-Pro | V4-Flash |
|---|---|---|
| SWE-bench Verified | 80.6% | 79.0% |
| SWE-bench Pro | 55.4% | 52.6% |
| Terminal Bench 2.0 | 67.9% | 56.9% |
| BrowseComp | 83.4% | 73.2% |
V4 支持 Interleaved Thinking------在多轮工具调用中保留推理轨迹,而不是像之前的模型那样每轮对话都丢弃上下文。这点对 Agent 场景至关重要。
3.4 中文写作:超越 Gemini 3.1 Pro
| 测试项 | V4-Pro 胜率 |
|---|---|
| 中文写作(vs Gemini 3.1 Pro) | 62.7% |
| 创意写作质量 | 77.5% |
| 白领任务(vs Claude Opus 4.6 Max) | 63% 非损失率 |
这是第一个在中文写作领域明确超越 Gemini 3.1 Pro 的开源模型。
四、定价:卷到极致的性价比
DeepSeek V4 的定价策略可以用四个字概括:不讲武德。
4.1 直接 API 价格
| 计费项 | V4-Pro | V4-Flash |
|---|---|---|
| 输入(缓存命中) | 1 元 / 百万 tokens | 0.2 元 / 百万 tokens |
| 输入(缓存未命中) | 12 元 / 百万 tokens | 1 元 / 百万 tokens |
| 输出 | 24 元 / 百万 tokens | 2 元 / 百万 tokens |
4.2 对比竞品
| 模型 | 输入(每百万 token) | 输出(每百万 token) |
|---|---|---|
| V4-Flash | $0.14 | $0.28 |
| V4-Pro | $1.74 | $3.48 |
| GPT-5.5 | $5.00 | $30.00 |
| Claude Opus 4.7 | $5.00 | $25.00 |
| Gemini 3.1 Pro | $2.00 | $12.00 |
V4-Flash 的价格只有 GPT-5.5 的 1/35 ,Claude Opus 4.7 的 1/90。
什么意思?你用 Claude Opus 调用 1 次的成本,用 V4-Flash 可以调用 90 次。对于需要大量调用 Agent 的场景(比如 AI 编程、自动化测试、批量数据处理),这个差异是颠覆性的。
五、国产化:真正的"国芯+国模"
5.1 首次将国产芯片列为官方硬件
这是 DeepSeek V4 最具战略意义的突破------首次将华为昇腾 NPU 与 NVIDIA GPU 并列写入官方硬件验证清单。
| 芯片 | 厂商 | 状态 |
|---|---|---|
| NVIDIA H200/H100/B200 | NVIDIA | 完整支持 |
| 华为昇腾 950PR | 华为 | 完整支持(同日发布) |
| 华为昇腾 950 超节点 | 华为 | 推理部署规模化 |
| 寒武纪思元系列 | 寒武纪 | Day 0 适配(vLLM 框架) |
| 摩尔线程 MTTS5000 | 摩尔线程 | FlagOS 适配 |
| 海光 DCU | 海光信息 | 全量适配 |
5.2 从 CUDA 到 CANN 的技术迁移
DeepSeek V4 将技术栈从 NVIDIA 的 CUDA 框架迁移到华为的 CANN 框架:
- 算子库、通信原语、内存管理------几乎每一层都重新实现
- 代码兼容性已逼近 95%
- 深度优化后推理速度较初期版本提升 35 倍
5.3 昇腾 950PR 的性能表现
| 对比项 | 华为昇腾 950PR | NVIDIA H20(对华特供) |
|---|---|---|
| 单卡算力 | 约为 H200 的一半 | 基准 |
| 采购价格 | H200 的 1/3 ~ 1/4 | 基准 |
| V4-Pro 推理时延 | 20ms | --- |
| V4-Flash 推理时延 | 10ms | --- |
性价比优势非常明显。而且这是不受出口管制的------无论国际形势如何变化,算力供应不会断。
5.4 产业链协同效应
DeepSeek V4 的发布激活了整个国产 AI 产业链:
芯片设计(华为昇腾 / 寒武纪)
→ 芯片制造(中芯国际 / 华虹半导体)
→ 超节点基础设施
→ 模型(DeepSeek V4)
→ 应用(Agent、编程、客服...)
资本市场反应强烈------V4 发布当天,中芯国际 H 股涨 10%,华虹半导体 H 股涨超 15%。
5.5 战略意义:从"单点突围"到"体系作战"
回顾中国大模型的发展历程:
- 2025 年初(R1 时期):模型层面的单点突破------用更低的训练成本达到了 GPT-4o 级别
- 2026 年(V4 时期):系统级突破------AI 芯片 + 基础设施 + 模型三者协同
如果说 R1 证明的是"我们可以做出好模型",那 V4 证明的是"我们的芯片也能跑好模型"。
正如科技日报评论所言:DeepSeek 团队在 V4 发布时引用《荀子》------"不诱于誉,不恐于诽,率道而行,端然正己。" 在喧嚣中保持定力,锚定国产化方向,这条路已经走通了。
六、在 Hermes Agent 中使用 DeepSeek V4
回到我们的实际工作。既然 Hermes Agent 已经原生支持 DeepSeek V4,配置非常直接。
配置方法
修改 config.yaml:
yaml
model:
default: deepseek-v4-flash # 日常用 Flash,又快又便宜
provider: deepseek
base_url: https://api.deepseek.com/v1
设置环境变量:
bash
export DEEPSEEK_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
就这么简单。Provider 自动识别为 chat_completions 模式,模型名 deepseek-v4-flash 原样传递,API key 自动加载。
Pro vs Flash 选型建议
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 日常对话、简单查询 | V4-Flash | 极低成本,响应快 |
| 代码生成、调试 | V4-Flash | 编码能力已非常接近 Pro |
| 复杂推理、数学 | V4-Pro | 需要更强的推理深度 |
| 长文档分析(百万级) | V4-Pro | 更精准的事实 recall |
| Agent 多步任务 | V4-Pro | 指令遵循和工具调用更强 |
最佳实践:默认用 Flash,遇到复杂任务自动升级到 Pro。 这样可以大幅降低成本------毕竟 Flash 的价格是 Pro 的 1/12。
实测效果
在 Hermes Agent 中使用 V4-Flash 的测试结果:
Provider: deepseek
API mode: chat_completions
Model: deepseek-v4-flash
Response: HELLO
API calls: 1, completed: true
Reasoning content: ✓ 正常生成
模型能够正常生成推理过程(reasoning_content),这是 DeepSeek 的特色功能------你能看到模型"思考"的过程,而不仅仅是最终答案。
七、总结
DeepSeek V4 的五大核心意义
| 维度 | 意义 |
|---|---|
| 技术层面 | 1.6 万亿参数开源模型,性能比肩全球最强闭源模型 |
| 成本层面 | 推理成本降至竞品的 1/20 ~ 1/90,百万上下文不再是富人专属 |
| 开源层面 | MIT 协议开放,全球开发者可自由商用、二次开发 |
| 自主可控 | 首次实现国产大模型与国产芯片深度适配,"去英伟达"路径可行 |
| 产业层面 | 激活全产业链,从"单点突围"走向"体系作战" |
不足之处
客观说几个短板:
- 纯文本模型------没有原生的多模态能力(图片识别、音频理解),多模态版本还在开发中
- 知识广度------MMLU-Pro 等知识基准仍落后 GPT-5.4 和 Gemini 3.1 Pro 约 3-6 个月
- 预览版状态------还不是最终的稳定版,发布日期未知
- 部署门槛------V4-Pro 1.6T 参数,本地部署需要 64 张 H20 起步
我的看法
从一个 AI 应用开发者的角度看,DeepSeek V4 最有意义的地方不在于它某个基准测试超了谁,而在于两点:
-
百万上下文白菜化------以前跑百万上下文是大厂的专利,现在 Flash 版本 0.2 元 / 百万 token,这意味着我们可以用 Agent 处理整本书、整个代码仓库、整份合同,不再需要分块和摘要。
-
国产化从口号变为现实------华为昇腾 + DeepSeek V4 的组合,证明了国产算力可以承载世界级大模型。对于国内的 AI 应用开发者来说,这意味着我们的基础设施不再受制于人。
正如某媒体的评论:DeepSeek V4 不是终点,它更像是一个路标,告诉所有人------这条路,走得通。
参考
- DeepSeek API Docs - V4 Preview Release
- DeepSeek V4 GitHub 开源仓库
- DeepSeek V4 中文能力 SuperCLUE 登顶
- 深度解读 DeepSeek V4,看清 Benchmark 之外的三个范式级创新 - 36氪
- DeepSeek V4 迈出"去英伟达"关键一步 - 南方周末
- HermesAgent 自定义人设实战:打造如意助手
- DeepSeek 官方平台
作者 :大鹏 AI 教育团队
日期 :2026-04-28
声明:本文基于 DeepSeek V4 预览版信息整理,部分细节可能随版本更新而变化。模型能力数据来源于 DeepSeek 官方技术报告及第三方评测。