DeepSeek V4预览版解析:Flash、Pro、1M上下文与落地重点

DeepSeek V4 预览版发布后,讨论很快聚焦到了几个词:FlashPro1M 上下文价格推理模式

如果只把这次发布理解成"参数继续变大",其实有点低估它了。V4 这次更像一轮产品化升级,不只是模型升级。能力、价格和接入方式,它都一起摆到了台面上。

先看官方确认的信息

这次公开的是两款预览版模型:

  • DeepSeek-V4-Pro:1.6T 总参数,49B 激活参数
  • DeepSeek-V4-Flash:284B 总参数,13B 激活参数

二者都是 MoE 架构,支持 1M 上下文,开放权重,支持 API 调用。

从产品设计上看,这个组合很像主流厂商常见的"旗舰 + 高性价比款":

  • Pro 负责能力上限
  • Flash 负责低成本和高吞吐

这点很关键。很多模型不是能力不够,而是产品线太单一,最后很难进入真实业务选型。

这次技术升级到底升级在哪

V4 这次最值得看的,不只是从 V3.2 往上堆到了更大的参数规模,而是它在长上下文效率上给出了更明确的说法。

按照官方模型卡,V4 的核心升级主要包括三块:

1. Hybrid Attention

DeepSeek 把 Compressed Sparse AttentionHeavily Compressed Attention 组合起来,目标是让超长上下文不只是"理论支持",而是尽量变成"可用能力"。

官方给出的说法是:在 1M 上下文场景下,V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%,KV Cache 只有 10%

这个数字后续当然还需要第三方验证,但技术方向是清楚的:V4 要解决的是长上下文的真实成本问题,而不只是把规格表写得更好看。

2. mHC

Manifold-Constrained Hyper-Connections 听起来很学术,但本质上是在处理超大模型训练稳定性问题。模型越大、层越深,训练越容易不稳,这类设计就是为了减少这种风险。

3. Muon Optimizer

这个点说明 DeepSeek 这次不是只在后训练上调一调,而是把训练效率和收敛稳定性也一起纳入了升级范围。

为什么大家这两天讨论最凶的是 Flash

表面上看,最容易吸引注意力的是 1.6T 的 Pro。真到落地层面,大家讨论得更多的却是 Flash。

原因很简单,Flash 的价格太有攻击性了。

官方定价:

  • V4-Flash:输入每百万 token 0.14 美元,输出 0.28 美元
  • V4-Pro:输入每百万 token 1.74 美元,输出 3.48 美元

这个价差意味着什么?意味着很多团队在做选型时,问题会从"谁最强"变成"Flash 到底够不够用"。

而从官方 benchmark 看,Flash 和 Pro 之间有差距,但不是所有场景都差得离谱。像 SWE-Bench VerifiedLiveCodeBench 这些任务上,Flash 并没有被 Pro 甩开到完全不可用的程度。

所以这轮讨论真正有现实意义的地方,不是 Pro 能不能冲到最顶,而是 Flash 会不会成为更高频的默认款。

V4-Pro 很强,但别把它写成"全面横扫"

这一点也要讲清楚。V4-Pro 在代码、部分数学和 agent 任务上的成绩确实很硬。比如:

  • LiveCodeBench:93.5
  • Codeforces:3206
  • SWE-Bench Verified:80.6
  • Terminal Bench 2.0:67.9

这些数字足够说明它已经站到了开源模型里非常靠前的位置。

但它并不是每项都第一。

比如在 MMLU-ProTerminal Bench 2.0SWE-Pro 这些指标上,它并没有形成"所有竞品都压过去"的局面。更准确的表述应该是:DeepSeek V4-Pro 把开源模型的上限继续往前推了,但还不是可以直接宣布"闭源前沿模型全面失守"的阶段。

这也是为什么这两天的讨论会明显分成两派:

  • 一派觉得开源模型终于又追近了一截
  • 一派更关心这些成绩有多少能被第三方复现

两边其实都没错,只是关注点不一样。

还有一个实用点:推理模式终于做得更清楚了

这次模型卡里明确给了三档推理模式:

  • Non-think
  • Think High
  • Think Max

同时 API 文档里也提供了:

  • thinking 开关
  • reasoning_effort 控制

这对工程接入是个很实在的提升。因为真实系统里,并不是所有请求都值得走高推理成本。把模式拆清楚以后,开发者可以按任务复杂度做更细粒度调度,而不是一刀切。

从落地角度看,V4 这次最重要的信号是什么

如果只用一句话概括,我会说:DeepSeek 正在把开源模型从"会刷分"往"能接进系统"推。

这次发布真正值得注意的,不是某一个 benchmark,而是它把几件以前分散的事同时做了:

  • 双模型产品线
  • 明确的推理模式
  • 1M 上下文
  • 比较激进的价格
  • API 迁移路径

尤其是定价页已经说明,deepseek-chatdeepseek-reasoner 未来会映射到 deepseek-v4-flash 的不同模式。对已有接入方来说,这说明迁移不是推倒重来,至少路径已经给出来了。

结语

如果你问 DeepSeek V4 预览版这次最该怎么看,我的答案不是"又一个更大的模型来了",而是:开源模型终于又一次把竞争重点拉回到了真实落地。

接下来最值得继续观察的有三件事:

  1. 官方成绩能不能被第三方大体验证
  2. Flash 会不会因为价格优势变成更常见的默认选项
  3. 1M 上下文在真实任务里到底值不值那个成本

如果这三件事里成立两件,V4 这次发布的意义就不会只停留在热搜和表格上。

相关推荐
无心水2 小时前
【Hermes:核心机制】9、40+ 内置工具全解:执行/信息/媒体/记忆/协调五大类 —— 智能体手脚架完全手册
大数据·人工智能·openclaw·养龙虾·hermes·养马
程序员三明治2 小时前
【AI】Java 调用大模型 API 实战:从 OpenAI 协议到 SiliconFlow 流式响应解析
java·开发语言·人工智能
xinlianyq2 小时前
文艺复兴科技新增AI因子,量化基金重夺主导权
人工智能·ai
数据牧羊人的成长笔记2 小时前
机器学习预备知识
人工智能·机器学习
互联网推荐官2 小时前
上海小程序开发:从技术架构到工程落地的完整拆解
人工智能·物联网·软件工程
人工智能培训2 小时前
大模型部署资源不足?轻量化部署解决方案
人工智能·机器学习·prompt·agent·智能体
两万五千个小时2 小时前
Agent 任务没做完就停了?我扒了 Claude Code 源码,找到了 4 层原因
人工智能·程序员·架构
老成说AI2 小时前
DEEPSEEK V4 实测:它不够炸裂,但正在啃最硬的骨头
人工智能·ai·deepseek
Wanderer X2 小时前
【LLM】GSPO DAPO
人工智能