DeepSeek V4:LLM 世界的"好又多"超市

DeepSeek V4:LLM 世界的"好又多"超市

中国有一种超市叫"好又多"------东西又好,价格又便宜。

DeepSeek V4,就是 LLM 世界里的好又多。

2026 年 4 月 24 日,DeepSeek 在 GPT-5.5 发布的同一天,悄悄放出了 V4。没有发布会,没有营销轰炸,就是一篇技术报告,然后开源。

但数字说话的时候,不需要营销。


一、先看价格:贵的对手贵多少?

模型 输出价格(每百万 tokens) 月用 1 亿 tokens 成本
DeepSeek V4-Flash $0.28 $28
DeepSeek V4-Pro $3.48 $348
GPT-5.4 $12.00 $1,200
GPT-5.5 $75.00 $7,500
Claude Opus 4.7 $25.00 $2,500

V4-Pro 比 GPT-5.5 便宜 22 倍 ,比 Claude Opus 4.7 便宜 7 倍

还没算完:DeepSeek 对 V4-Pro 提供 75% 的促销折扣(有效期至 2026/05/31),缓存命中价格还会再降到十分之一。

有人在 Reddit 上算了一笔账:一个独立开发者跑 24/7 自主 agent 系统,4 周消耗 1 亿 tokens,DeepSeek V4 的账单大约是 280 ∗ ∗ 。换 G P T − 5.5 ,同样的量要 ∗ ∗ 280**。换 GPT-5.5,同样的量要 ** 280∗∗。换GPT−5.5,同样的量要∗∗3000+

这不是小差距,这是生死线的差距------对独立开发者来说, 280 是可持续的, 280 是可持续的, 280是可持续的,3000 是不可能。


二、两个型号,覆盖不同场景

DeepSeek V4 发布了两个型号:

V4-Pro(旗舰)

  • 总参数 1.6 万亿,激活参数 49B(MoE 架构)
  • 全球 Codeforces 竞技排名第 23 名(人类级别)
  • SWE-bench Pro:55.4%,GPQA Diamond:90.1%
  • 下载体积 865GB,本地部署需要多节点

V4-Flash(经济款)

  • 总参数 284B,激活参数 13B
  • 推理能力接近 V4-Pro
  • 简单 agent 任务与 V4-Pro 持平
  • 下载体积 160GB,M5 MacBook Pro(128GB)加轻量量化可以跑
  • 输出价格仅 $0.28/M tokens

一个类比:V4-Pro 是旗舰店正品,V4-Flash 是同款平价版------大多数日常任务,Flash 够用,而且便宜 12 倍。


三、技术上做了什么让它这么便宜?

DeepSeek 便宜不是靠亏钱补贴,而是靠真实的架构创新压低了成本。

3.1 MoE:只用必要的算力

Mixture of Experts(专家混合)架构的核心思想:每个 token 只激活全部参数的一小部分。

V4-Pro 总参数 1.6T,但每个 token 实际只用 49B 的激活参数------激活比例不到 3%。这意味着每次推理的计算量远比 1.6T 全量参数小得多,同等硬件能跑更多请求。

3.2 混合注意力架构:1M 上下文不再昂贵

标准 Transformer 的注意力计算复杂度是 O(n²)------上下文越长,计算量指数级增长。这是"长上下文贵"的根本原因。

V4 的混合注意力(CSA + HCA)把这个问题压下来了:

  • 在 1M token 上下文下,推理 FLOPs 只有 V3.2 的 27%
  • KV Cache 只有 V3.2 的 10%

这意味着 1M token 上下文窗口在 V4 上是真实可用的,而不是一个标榜的数字。

3.3 三档推理模式:按需付费

V4 内置三种推理模式:

复制代码
Non-Thinking  → 快速直接,适合常规任务
Thinking      → 标准 CoT,适合复杂问题  
Think Max     → 最大推理预算(需要 ≥384K context)

不是所有请求都要开 "Think Max"。对于简单的 CRUD 操作、文本摘要,用 Non-Thinking 节省大量 token 消耗。


四、性能上跑到什么位置?

DeepSeek 自己说:V4-Pro 落后 SOTA 闭源模型约 3-6 个月

这是非常诚实的定位,也是关键信息:它不是最强的,但足够强------

基准测试 DeepSeek V4-Pro GPT-5.5 Claude Opus 4.7
SWE-bench Pro 55.4% 58.6% 64.3%
Terminal-Bench 2.0 67.9% 82.7% 69.4%
GPQA Diamond 90.1% --- ---
MRCR 1M(长上下文) 83.5% --- ---
Putnam-200 数学 V4-Flash-Max: 81.0 --- ---
开源权重 ✅ MIT

最值得关注的:MRCR 1M 超过了 Gemini 3.1 Pro。在百万 token 级别的长上下文理解上,V4 已经做到了开源最强,且超越了大多数闭源竞品。

数学能力更是离谱------Putnam-2025 高校数学竞赛,V4 拿到了满分 120/120


五、对独立开发者和 Agent 场景意味着什么

Reddit 上有一篇帖子讲了一个真实案例:一个独立开发者用 DeepSeek V4 跑 24/7 自主研究 agent,4 周消耗 1 亿 tokens,账单 $280

这个系统里有:

  • 每 2 秒检测一次自身状态
  • 定时(凌晨 2-4 点)做自我反思,把今天的思考提炼更新到 self_rules.json
  • 高输出低输入的自主生成模式(而不是传统的 RAG 输入模式)

核心结论是:DeepSeek V4 把"7×24 小时跑 agent"这件事的门槛,从企业级预算降到了个人可负担的范围。

另一个视角:过度 RLHF 的模型在长 agent 循环里容易"漂移"------不断道歉、反复确认、拒绝执行。DeepSeek 在这方面更干脆,long-running agent loop 的一致性更好。


六、迁移成本:一行代码

对已经在用 DeepSeek 旧版的开发者,迁移成本几乎为零:

python 复制代码
# 改一个字段即可
response = client.chat.completions.create(
    model="deepseek-v4-pro",   # 原来是 "deepseek-chat"
    messages=[...]
)

支持 OpenAI ChatCompletions 格式,也支持 Anthropic API 格式。

⚠️ 注意:deepseek-chatdeepseek-reasoner 将于 2026 年 7 月 24 日 15:59 UTC 停用,请尽早迁移。


七、"好又多"的战略意义

DeepSeek 选在 GPT-5.5 发布当天放出 V4,绝非偶然。

这是一个清晰的信号:

"你的旗舰模型刚出来,我的平价版本性能差 3-6 个月,但价格差 22 倍。大多数开发者愿意用哪个?"

GPT-5.5 的存在,确实对专业 agent 编程更强(Terminal-Bench 82.7% vs 67.9%)。但对于 80% 的实际工程场景------文档问答、代码辅助、内容生成、自动化流程------V4 已经足够,而成本优势是压倒性的。

"好又多"的核心竞争力从来不是比高端超市更高端,而是让普通人也买得起足够好的东西

DeepSeek V4 做到了这件事。


总结

维度 DeepSeek V4
价格 V4-Flash 0.28 / M , V 4 − P r o 0.28/M,V4-Pro 0.28/M,V4−Pro3.48/M
上下文 1M tokens 标配
性能 落后 SOTA 闭源 3-6 个月
开源 MIT 许可,可本地部署
最适合 独立开发者、高频 agent、长上下文任务

如果你在跑高频 LLM 任务,还没换 DeepSeek V4,算一下这笔账:

同样的工作量,DeepSeek V4 的账单是竞品的 1/10 到 1/22。

这不是"够用就行"的将就,这是用真实的架构创新换来的价格优势。

好又多超市,永远不缺顾客。

相关推荐
阿里云云原生4 小时前
香港站【企业 AI Agent 工程化实战专场】来啦,邀您7月9日见!
云原生·agent
阿里云云原生7 小时前
研发域与运维域的“数字握手”:通过 Agentic Skills 实现 DevOps 全链路自动化
云原生
阿里云云原生4 天前
AI 开发新常态:当 Cursor、Claude、Codex 并行,如何统一管理散落的 Skill 资产?
云原生·ai编程
探索云原生4 天前
K8s 1.36 这个 GA 特性,把 initContainer 拉模型的 hack 干掉了
ai·云原生·kubernetes
Java之美5 天前
从edge-trigger到level-trigger,谈谈 Kubernetes controller 的开发范式
云原生
阿里云云原生5 天前
深度解构:当 Append-only 的 SLS 遇上 Update/Delete,是如何实现设计权衡的?
云原生
Java之美6 天前
一次k8s升级引发的DevicePlugin注册失败
云原生·kubernetes
秋播6 天前
nerdctl推送rancher本地镜像到harbor
云原生
阿里云云原生6 天前
告别冗长链路!Kafka × Table Bucket 实现开放表格式零 ETL 实时入湖
云原生·kafka
SelectDB7 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生