DeepSeek V4:LLM 世界的"好又多"超市
中国有一种超市叫"好又多"------东西又好,价格又便宜。
DeepSeek V4,就是 LLM 世界里的好又多。
2026 年 4 月 24 日,DeepSeek 在 GPT-5.5 发布的同一天,悄悄放出了 V4。没有发布会,没有营销轰炸,就是一篇技术报告,然后开源。
但数字说话的时候,不需要营销。
一、先看价格:贵的对手贵多少?
| 模型 | 输出价格(每百万 tokens) | 月用 1 亿 tokens 成本 |
|---|---|---|
| DeepSeek V4-Flash | $0.28 | $28 |
| DeepSeek V4-Pro | $3.48 | $348 |
| GPT-5.4 | $12.00 | $1,200 |
| GPT-5.5 | $75.00 | $7,500 |
| Claude Opus 4.7 | $25.00 | $2,500 |
V4-Pro 比 GPT-5.5 便宜 22 倍 ,比 Claude Opus 4.7 便宜 7 倍。
还没算完:DeepSeek 对 V4-Pro 提供 75% 的促销折扣(有效期至 2026/05/31),缓存命中价格还会再降到十分之一。
有人在 Reddit 上算了一笔账:一个独立开发者跑 24/7 自主 agent 系统,4 周消耗 1 亿 tokens,DeepSeek V4 的账单大约是 <math xmlns="http://www.w3.org/1998/Math/MathML"> 280 ∗ ∗ 。换 G P T − 5.5 ,同样的量要 ∗ ∗ 280**。换 GPT-5.5,同样的量要 ** </math>280∗∗。换GPT−5.5,同样的量要∗∗3000+。
这不是小差距,这是生死线的差距------对独立开发者来说, <math xmlns="http://www.w3.org/1998/Math/MathML"> 280 是可持续的, 280 是可持续的, </math>280是可持续的,3000 是不可能。
二、两个型号,覆盖不同场景
DeepSeek V4 发布了两个型号:
V4-Pro(旗舰)
- 总参数 1.6 万亿,激活参数 49B(MoE 架构)
- 全球 Codeforces 竞技排名第 23 名(人类级别)
- SWE-bench Pro:55.4%,GPQA Diamond:90.1%
- 下载体积 865GB,本地部署需要多节点
V4-Flash(经济款)
- 总参数 284B,激活参数 13B
- 推理能力接近 V4-Pro
- 简单 agent 任务与 V4-Pro 持平
- 下载体积 160GB,M5 MacBook Pro(128GB)加轻量量化可以跑
- 输出价格仅 $0.28/M tokens
一个类比:V4-Pro 是旗舰店正品,V4-Flash 是同款平价版------大多数日常任务,Flash 够用,而且便宜 12 倍。
三、技术上做了什么让它这么便宜?
DeepSeek 便宜不是靠亏钱补贴,而是靠真实的架构创新压低了成本。
3.1 MoE:只用必要的算力
Mixture of Experts(专家混合)架构的核心思想:每个 token 只激活全部参数的一小部分。
V4-Pro 总参数 1.6T,但每个 token 实际只用 49B 的激活参数------激活比例不到 3%。这意味着每次推理的计算量远比 1.6T 全量参数小得多,同等硬件能跑更多请求。
3.2 混合注意力架构:1M 上下文不再昂贵
标准 Transformer 的注意力计算复杂度是 O(n²)------上下文越长,计算量指数级增长。这是"长上下文贵"的根本原因。
V4 的混合注意力(CSA + HCA)把这个问题压下来了:
- 在 1M token 上下文下,推理 FLOPs 只有 V3.2 的 27%
- KV Cache 只有 V3.2 的 10%
这意味着 1M token 上下文窗口在 V4 上是真实可用的,而不是一个标榜的数字。
3.3 三档推理模式:按需付费
V4 内置三种推理模式:
Non-Thinking → 快速直接,适合常规任务
Thinking → 标准 CoT,适合复杂问题
Think Max → 最大推理预算(需要 ≥384K context)
不是所有请求都要开 "Think Max"。对于简单的 CRUD 操作、文本摘要,用 Non-Thinking 节省大量 token 消耗。
四、性能上跑到什么位置?
DeepSeek 自己说:V4-Pro 落后 SOTA 闭源模型约 3-6 个月。
这是非常诚实的定位,也是关键信息:它不是最强的,但足够强------
| 基准测试 | DeepSeek V4-Pro | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|---|
| SWE-bench Pro | 55.4% | 58.6% | 64.3% |
| Terminal-Bench 2.0 | 67.9% | 82.7% | 69.4% |
| GPQA Diamond | 90.1% | --- | --- |
| MRCR 1M(长上下文) | 83.5% | --- | --- |
| Putnam-200 数学 | V4-Flash-Max: 81.0 | --- | --- |
| 开源权重 | ✅ MIT | ❌ | ❌ |
最值得关注的:MRCR 1M 超过了 Gemini 3.1 Pro。在百万 token 级别的长上下文理解上,V4 已经做到了开源最强,且超越了大多数闭源竞品。
数学能力更是离谱------Putnam-2025 高校数学竞赛,V4 拿到了满分 120/120。
五、对独立开发者和 Agent 场景意味着什么
Reddit 上有一篇帖子讲了一个真实案例:一个独立开发者用 DeepSeek V4 跑 24/7 自主研究 agent,4 周消耗 1 亿 tokens,账单 $280。
这个系统里有:
- 每 2 秒检测一次自身状态
- 定时(凌晨 2-4 点)做自我反思,把今天的思考提炼更新到
self_rules.json - 高输出低输入的自主生成模式(而不是传统的 RAG 输入模式)
核心结论是:DeepSeek V4 把"7×24 小时跑 agent"这件事的门槛,从企业级预算降到了个人可负担的范围。
另一个视角:过度 RLHF 的模型在长 agent 循环里容易"漂移"------不断道歉、反复确认、拒绝执行。DeepSeek 在这方面更干脆,long-running agent loop 的一致性更好。
六、迁移成本:一行代码
对已经在用 DeepSeek 旧版的开发者,迁移成本几乎为零:
python
# 改一个字段即可
response = client.chat.completions.create(
model="deepseek-v4-pro", # 原来是 "deepseek-chat"
messages=[...]
)
支持 OpenAI ChatCompletions 格式,也支持 Anthropic API 格式。
⚠️ 注意:deepseek-chat 和 deepseek-reasoner 将于 2026 年 7 月 24 日 15:59 UTC 停用,请尽早迁移。
七、"好又多"的战略意义
DeepSeek 选在 GPT-5.5 发布当天放出 V4,绝非偶然。
这是一个清晰的信号:
"你的旗舰模型刚出来,我的平价版本性能差 3-6 个月,但价格差 22 倍。大多数开发者愿意用哪个?"
GPT-5.5 的存在,确实对专业 agent 编程更强(Terminal-Bench 82.7% vs 67.9%)。但对于 80% 的实际工程场景------文档问答、代码辅助、内容生成、自动化流程------V4 已经足够,而成本优势是压倒性的。
"好又多"的核心竞争力从来不是比高端超市更高端,而是让普通人也买得起足够好的东西。
DeepSeek V4 做到了这件事。
总结
| 维度 | DeepSeek V4 |
|---|---|
| 价格 | V4-Flash <math xmlns="http://www.w3.org/1998/Math/MathML"> 0.28 / M , V 4 − P r o 0.28/M,V4-Pro </math>0.28/M,V4−Pro3.48/M |
| 上下文 | 1M tokens 标配 |
| 性能 | 落后 SOTA 闭源 3-6 个月 |
| 开源 | MIT 许可,可本地部署 |
| 最适合 | 独立开发者、高频 agent、长上下文任务 |
如果你在跑高频 LLM 任务,还没换 DeepSeek V4,算一下这笔账:
同样的工作量,DeepSeek V4 的账单是竞品的 1/10 到 1/22。
这不是"够用就行"的将就,这是用真实的架构创新换来的价格优势。
好又多超市,永远不缺顾客。