DeepSeek V4来了！

DeepSeek V4来了！开源模型又前进一大步！DeepSeek V4 终于来了！开源模型又往前推了一大步

GPT-5.5刚刚发布，DeepSeek V4 预览版就正式上线并同步开源了。直接狙击～

先说结论：如果你最近关注的是 Agent、长上下文和中文生产力，这次 V4 不是一次小升级，是一次明显换代。

官方一口气给了两个版本：V4-Pro 和 V4-Flash

其中 V4-Pro 是 1.6T 参数（49B 激活），V4-Flash 是 284B 参数（13B 激活）

两个版本都把 1M 上下文直接做成了标配！！上下文太重要了，是AI的命根子。

这次最值得看的，不只是上下文变长，而是长上下文终于能真正用起来。

技术报告里说明了，DeepSeek V4 用了新的混合注意力架构，把 CSA 和 HCA 结合起来，再配合 mHC 残差连接和 Muon 优化器。

核心目标就是把超长上下文的算力和显存成本打下来。

按官方数据，在 1M token 场景下，V4-Pro 的单 token 推理 FLOPs 只有V3.2 的 27%，KV cache 只有 10%；

V4-Flash 更激进，分别压到 10% 和 7%。这意味着"百万上下文"第一次不像一个噱头式的参数，而是真正能用起来。

跑分上，V4-Pro-Max 已经坐进开源第一梯队。

我对比了GLM-5.1，SimpleQA 57.9，明显高于 GLM-5.1 的 38.1；

GPQA 90.1，高于 GLM-5.1 的 86.2；

HLE 37.7，也略高于 GLM-5.1 的 34.7。

Agent 侧两者更接近一些，Terminal Bench 2.0 上 V4-Pro-Max 是 67.9，GLM-5.1 是 63.5；

但在 SWE-Bench Pro 这类工程任务上，GLM-5.1 官方公开分数是 58.4，DeepSeek V4 报告里是 55.4。

换句话说，DeepSeek V4 更像是在"知识、推理、长上下文"三件事上整体抬升，而 GLM-5.1 依然是工程 Agent 方向非常强的对手。

当然，在上下文方面，DeepSeek V4-Pro 对 GLM-5.1 的优势也很直观：前者是 1M 上下文，后者是200K；

前者总参数 1.6T，后者是 754B。

我的判断是，DeepSeek V4 这次真正重要的意义，不是单点跑分赢了多少，而是开源模型正在进一步走向"能长时间干活"，这对Agent意义重大。

我准备在小龙虾，claude code等Agent里面体验一波DeepSeek V4

如果后续真实体验能接住这份技术报告，DeepSeek V4 很可能会成为 2026 年开源大模型最重要的分水岭之一。