DeepSeek V4：LLM 世界的"好又多"超市

中国有一种超市叫"好又多"------东西又好，价格又便宜。

DeepSeek V4，就是 LLM 世界里的好又多。

2026 年 4 月 24 日，DeepSeek 在 GPT-5.5 发布的同一天，悄悄放出了 V4。没有发布会，没有营销轰炸，就是一篇技术报告，然后开源。

但数字说话的时候，不需要营销。

一、先看价格：贵的对手贵多少？

模型	输出价格（每百万 tokens）	月用 1 亿 tokens 成本
DeepSeek V4-Flash	$0.28	$28
DeepSeek V4-Pro	$3.48	$348
GPT-5.4	$12.00	$1,200
GPT-5.5	$75.00	$7,500
Claude Opus 4.7	$25.00	$2,500

V4-Pro 比 GPT-5.5 便宜 22 倍 ，比 Claude Opus 4.7 便宜 7 倍。

还没算完：DeepSeek 对 V4-Pro 提供 75% 的促销折扣（有效期至 2026/05/31），缓存命中价格还会再降到十分之一。

有人在 Reddit 上算了一笔账：一个独立开发者跑 24/7 自主 agent 系统，4 周消耗 1 亿 tokens，DeepSeek V4 的账单大约是 <math xmlns="http://www.w3.org/1998/Math/MathML"> 280 ∗ ∗ 。换 G P T − 5.5 ，同样的量要 ∗ ∗ 280**。换 GPT-5.5，同样的量要 ** </math>280∗∗。换GPT−5.5，同样的量要∗∗3000+。

这不是小差距，这是生死线的差距------对独立开发者来说， <math xmlns="http://www.w3.org/1998/Math/MathML"> 280 是可持续的， 280 是可持续的， </math>280是可持续的，3000 是不可能。

二、两个型号，覆盖不同场景

DeepSeek V4 发布了两个型号：

V4-Pro（旗舰）

总参数 1.6 万亿，激活参数 49B（MoE 架构）
全球 Codeforces 竞技排名第 23 名（人类级别）
SWE-bench Pro：55.4%，GPQA Diamond：90.1%
下载体积 865GB，本地部署需要多节点

V4-Flash（经济款）

总参数 284B，激活参数 13B
推理能力接近 V4-Pro
简单 agent 任务与 V4-Pro 持平
下载体积 160GB，M5 MacBook Pro（128GB）加轻量量化可以跑
输出价格仅 $0.28/M tokens

一个类比：V4-Pro 是旗舰店正品，V4-Flash 是同款平价版------大多数日常任务，Flash 够用，而且便宜 12 倍。

三、技术上做了什么让它这么便宜？

DeepSeek 便宜不是靠亏钱补贴，而是靠真实的架构创新压低了成本。

3.1 MoE：只用必要的算力

Mixture of Experts（专家混合）架构的核心思想：每个 token 只激活全部参数的一小部分。

V4-Pro 总参数 1.6T，但每个 token 实际只用 49B 的激活参数------激活比例不到 3%。这意味着每次推理的计算量远比 1.6T 全量参数小得多，同等硬件能跑更多请求。

3.2 混合注意力架构：1M 上下文不再昂贵

标准 Transformer 的注意力计算复杂度是 O(n²)------上下文越长，计算量指数级增长。这是"长上下文贵"的根本原因。

V4 的混合注意力（CSA + HCA）把这个问题压下来了：

在 1M token 上下文下，推理 FLOPs 只有 V3.2 的 27%
KV Cache 只有 V3.2 的 10%

这意味着 1M token 上下文窗口在 V4 上是真实可用的，而不是一个标榜的数字。

3.3 三档推理模式：按需付费

V4 内置三种推理模式：

复制代码

Non-Thinking  → 快速直接，适合常规任务
Thinking      → 标准 CoT，适合复杂问题  
Think Max     → 最大推理预算（需要 ≥384K context）

不是所有请求都要开 "Think Max"。对于简单的 CRUD 操作、文本摘要，用 Non-Thinking 节省大量 token 消耗。

四、性能上跑到什么位置？

DeepSeek 自己说：V4-Pro 落后 SOTA 闭源模型约 3-6 个月。

这是非常诚实的定位，也是关键信息：它不是最强的，但足够强------

基准测试	DeepSeek V4-Pro	GPT-5.5	Claude Opus 4.7
SWE-bench Pro	55.4%	58.6%	64.3%
Terminal-Bench 2.0	67.9%	82.7%	69.4%
GPQA Diamond	90.1%	---	---
MRCR 1M（长上下文）	83.5%	---	---
Putnam-200 数学	V4-Flash-Max: 81.0	---	---
开源权重	✅ MIT	❌	❌

最值得关注的：MRCR 1M 超过了 Gemini 3.1 Pro。在百万 token 级别的长上下文理解上，V4 已经做到了开源最强，且超越了大多数闭源竞品。

数学能力更是离谱------Putnam-2025 高校数学竞赛，V4 拿到了满分 120/120。

五、对独立开发者和 Agent 场景意味着什么

Reddit 上有一篇帖子讲了一个真实案例：一个独立开发者用 DeepSeek V4 跑 24/7 自主研究 agent，4 周消耗 1 亿 tokens，账单 $280。

这个系统里有：

每 2 秒检测一次自身状态
定时（凌晨 2-4 点）做自我反思，把今天的思考提炼更新到 self_rules.json
高输出低输入的自主生成模式（而不是传统的 RAG 输入模式）

核心结论是：DeepSeek V4 把"7×24 小时跑 agent"这件事的门槛，从企业级预算降到了个人可负担的范围。

另一个视角：过度 RLHF 的模型在长 agent 循环里容易"漂移"------不断道歉、反复确认、拒绝执行。DeepSeek 在这方面更干脆，long-running agent loop 的一致性更好。

六、迁移成本：一行代码

对已经在用 DeepSeek 旧版的开发者，迁移成本几乎为零：

python 复制代码

# 改一个字段即可
response = client.chat.completions.create(
    model="deepseek-v4-pro",   # 原来是 "deepseek-chat"
    messages=[...]
)

支持 OpenAI ChatCompletions 格式，也支持 Anthropic API 格式。

⚠️ 注意：deepseek-chat 和 deepseek-reasoner 将于 2026 年 7 月 24 日 15:59 UTC 停用，请尽早迁移。

七、"好又多"的战略意义

DeepSeek 选在 GPT-5.5 发布当天放出 V4，绝非偶然。

这是一个清晰的信号：

"你的旗舰模型刚出来，我的平价版本性能差 3-6 个月，但价格差 22 倍。大多数开发者愿意用哪个？"

GPT-5.5 的存在，确实对专业 agent 编程更强（Terminal-Bench 82.7% vs 67.9%）。但对于 80% 的实际工程场景------文档问答、代码辅助、内容生成、自动化流程------V4 已经足够，而成本优势是压倒性的。

"好又多"的核心竞争力从来不是比高端超市更高端，而是让普通人也买得起足够好的东西。

DeepSeek V4 做到了这件事。

总结

维度	DeepSeek V4
价格	V4-Flash <math xmlns="http://www.w3.org/1998/Math/MathML"> 0.28 / M ， V 4 − P r o 0.28/M，V4-Pro </math>0.28/M，V4−Pro3.48/M
上下文	1M tokens 标配
性能	落后 SOTA 闭源 3-6 个月
开源	MIT 许可，可本地部署
最适合	独立开发者、高频 agent、长上下文任务

如果你在跑高频 LLM 任务，还没换 DeepSeek V4，算一下这笔账：

同样的工作量，DeepSeek V4 的账单是竞品的 1/10 到 1/22。

这不是"够用就行"的将就，这是用真实的架构创新换来的价格优势。

好又多超市，永远不缺顾客。