DeepSeek V4来了:百万字记忆,十分之一的价格,和一群等了太久的人

4月24号中午,我正在工位上改一个调了三天的Bug,微信群突然炸了------"DeepSeek V4发了!"我第一反应是:终于。说实话,从今年2月等到4月,整个AI圈都在等这支靴子落地。梁文锋和他的团队让我们等了太久,但打开技术报告的那一刻,我觉得这个等待是值得的。不过,值不值得,可能每个人都有自己的答案。

一、一个"预览版"引发的狂欢

4月24号中午,DeepSeek官方微信公众号推送了一篇文章,标题是《DeepSeek-V4预览版:迈入百万上下文普惠时代》。

没错,是预览版

对于习惯了"越级发布、一步到位"的AI行业来说,以"预览版"形态推出一个万亿参数级别的模型,多少有些出人意料。但如果你了解V4背后的故事------从2月拖到3月,从3月又拖到4月,中间经历了华为昇腾芯片的训练故障、服务器的史诗级宕机、长达数月的代码重写------你就会理解,为什么梁文锋选择先交一份"作业草稿"。

不过,即使是这份"草稿",也已经足够让整个行业倒吸一口凉气。


二、两个模型,两种哲学

V4这次一口气推出了两个版本,一个旗舰、一个轻量:

打个不严谨但直观的比方:V4-Pro就像你公司里那个经验最丰富、什么都能干的技术总监;V4-Flash则是那个反应极快、干活成本极低的高级工程师。

不过有意思的是,在独立测试中,便宜的V4-Flash在20个真实任务里居然赢了7个,其中5个赢的还是自家更贵的V4-Pro。这让我想起我们行业常说的一句话:"最好的技术,不是最强的技术,而是最适合的技术。"


三、三项技术革新:不是修修补补,而是换了引擎

如果说参数和价格只是数字上的震撼,那V4真正让我失眠的,是它的三项底层技术创新。

3.1 Engram条件记忆:给大模型装了一个"外挂大脑"

这是整个V4中最让我兴奋的创新。

传统的Transformer模型有一个根本性的"笨"------它把所有的知识都压缩在模型的权重里。打个比方,就像你把整座图书馆的书都背在脑子里,每次想查一个事实,都得在脑子里翻半天。

Engram条件记忆做的事情是:把"记住事实"和"推理"这两件事分开了

它通过一个外部的可检索知识库,实现了O(1)------也就是常数时间------的知识查找。不管你要查的知识库有多大,查一次的时间都一样。更夸张的是,在100万Token的上下文下,V4-Pro的单Token推理计算量只有V3的27% ,KV缓存占用只有V3的10%

这是什么概念?相当于你以前读一本《三体》要花10块电池的电量,现在只需要不到1块。

DeepSeek团队把这个写成了论文,今年1月就发在了arXiv上。现在回看,那篇论文其实就是V4的预告信。

3.2 mHC流形约束超连接:让训练不再"翻车"

大模型训练最难的不是开始,而是"不翻车"。训练过程中梯度爆炸、损失函数震荡,这些都会导致整个训练前功尽弃。

mHC(Manifold-Constrained Hyper-Connections)是DeepSeek创始人梁文锋亲自参与设计的训练稳定性技术。它替代了传统的残差连接,效果是:训练收敛速度提升约30%,编程基准测试质量提升约2%

30%的收敛速度提升听起来不性感,但对于动辄消耗数千万美元训练成本的万亿参数模型来说,这意味着几百万甚至上千万美元的节省。

3.3 华为昇腾适配:从英伟达到"国产替代"

这一条,说实话,在技术圈之外可能不会引起太大关注。但在我们这些天天跟算力打交道的人看来,这是V4最重要、也最不容易被看到的突破。

整个V4,从头到尾都是在华为昇腾芯片上训练的

这意味着什么?意味着DeepSeek的工程师们花了数月时间,把整个训练框架从英伟达的CUDA生态迁移到了华为的CANN框架。代码重写、算子适配、通信优化......这不是换一块芯片那么简单,这是换了一条技术栈。

路透社4月3号确认了这个消息,华为计算官方微信同日发文称"昇腾超节点产品全面支持DeepSeek V4"。

从"卡脖子"到"自主可控",这四个字背后是多少工程师的头发,只有经历过的人才知道。


跑分怎么样?实话实说

好了,聊完技术聊点大家最关心的------它到底有多强?

编程能力(DeepSeek的传统强项):

基准测试 V4-Pro成绩 参考对比
LiveCodeBench 88.4%(思考模式) GPT-5.4 ~90%
SWE-Bench Verified ~73.8% Claude Opus 4.6 ~76.8%
IMO-AnswerBench 89.8%(全球第一) GPT-5.4 91.4%
HumanEval+ ~90% Claude ~88%
Codeforces评分 2441分 超过96.3%人类程序员

数学与推理:

基准测试 V4-Pro成绩 参考对比
HMMT 2026 Feb 95.2% GPT-5.4 97.7%
GPQA Diamond 87.4%(思考模式) ---
MATH-500 82.8% GPT-5.4 ~90%+

一句话总结:编程能力已经站在开源之巅,逼近甚至部分超越闭源旗舰;数学推理接近但仍有差距。

当然,跑分这东西大家看看就好。知乎上一位朋友的评价我觉得很中肯:"在AI模型的世界里,没有退化是一个非常高的评价。V4似乎找到了一个更优的平衡点。"


价格:真正让同行坐不住的杀手锏

如果说技术是DeepSeek的矛,那价格就是它的盾------不,应该说价格才是DeepSeek真正的大招。

直接上数据:

DeepSeek V4-Pro GPT-5.4 Claude Opus 4.6
输入($/百万token) $0.30 $2-10 ~$15
输出($/百万token) $0.50 $1.25-10 ~$75
性价比倍数 基准 4-30倍 30-150倍

你没看错。V4-Pro的价格大约是GPT-5.4的1/10到1/30 ,是Claude Opus 4.6的1/30到1/150

而V4-Flash更便宜,输入价格只有$0.14/百万token。

掘金上有一位开发者写了一段话,我觉得说到了所有人的心坎里:"DeepSeek V4不需要比Claude聪明,它只需要便宜50倍。Claude和GPT的定价已经不是'我愿意付多少'的问题,是'我有没有理由付15倍溢价'的问题。"


真实体验:好用的地方和不好用的地方

跑分是一回事,真实用起来又是一回事。综合了知乎、微博、Reddit、Twitter上大量开发者的反馈,我整理了一份"不完全体验报告"。

让人惊艳的:

  • 编程体验超越预期:多位开发者反馈,V4-Pro在Agentic Coding(让AI自主完成编程任务)场景下,使用体验优于Claude Sonnet 4.5,交付质量接近Opus 4.6的非思考模式。它已经成了DeepSeek内部员工日常使用的编程模型。
  • 百万字上下文不是噱头:华尔街见闻的实测显示,一次对话读完整部《三体》三部曲只烧了54万token。这在以前是不可想象的。
  • 结构化输出能力突出:36氪的测评指出,V4-Pro在MCP协议和结构化输出场景表现尤其好,能把复杂意图拆解成规范的结构化结果。

让人头疼的:

  • 服务稳定性是硬伤:这是目前吐槽最多的点。3月29日,DeepSeek经历了成立以来最严重的一次宕机,长达13小时,直接上了热搜。4月灰度测试期间,不少用户反馈服务器繁忙、响应慢。官方API页面甚至坦诚承认:*"受限于高端算力,目前V4-Pro模型的服务吞吐仍有限。"*说白了,好东西造出来了,但还没法让所有人都用上。
  • Arena偏好测试低于预期:在LMArena这类由真人盲测评选的偏好基准中,V4-Pro的表现并没有跑分那么惊艳。Reddit社区的评价是"underwhelms"。这提醒我们:跑分高不等于用户喜欢。
  • Flash版质量参差不齐:便宜的Flash版本在某些场景(如角色扮演)被Reddit用户吐槽"So bad, doesn't sound human"。它适合处理简单、结构化的任务,但如果你期望它有温度、有个性,目前还差点意思。
  • "变冷变傻"的语言风格变化:2月份灰度测试时就有用户发现,V4的对话风格变得更简练、更直接,不再像V3那样"人性化"。有人觉得这是进步,有人觉得这是退步。

和Kimi K2.6同台竞技:中国开源的"双雄时代"

巧的是,就在DeepSeek V4发布的4天前,月之暗面刚刚发布了Kimi K2.6。两大中国开源模型前后脚亮相,让整个AI圈热闹得像过年。

我简单对比一下两者的定位:

DeepSeek V4-Pro Kimi K2.6
总参数 1.6T MoE 1T MoE
激活参数 49B 32B
上下文 1M Token 256K Token
核心优势 通用全能、极致性价比 编程+Agent、长程自主执行
编程特点 基准测试顶尖 12小时连续编码、4000行代码
Agent能力 增强,工具调用出色 300子Agent并行、4000协作步骤
价格 <math xmlns="http://www.w3.org/1998/Math/MathML"> 0.30 / 0.30/ </math>0.30/0.50 per 1M <math xmlns="http://www.w3.org/1998/Math/MathML"> 0.95 / 0.95/ </math>0.95/4.00 per 1M
硬件 华为昇腾 未公开

我的看法:如果你需要的是通用能力强、价格极致便宜、超长上下文处理 ,DeepSeek V4是首选;如果你需要的是极致的编程Agent体验、长时间自主执行复杂项目,Kimi K2.6可能更适合。

但这不是零和博弈。两个团队走的是不同的路,中国开源AI能同时拥有两支世界级队伍,本身就是一件值得骄傲的事情。


同日对阵GPT-5.5:一场不对称的较量

更更更有戏剧性的是,OpenAI几乎在同一天发布了GPT-5.5,再次登顶全球AI排行榜。

这让我想起去年1月DeepSeek R1发布时,全球AI圈的那种震动。那时候所有人都在说:"中国AI追上来了!"但一年之后,OpenAI用GPT-5.5证明了:追赶者和被追赶者之间的差距,并没有想象中那么容易被抹平。

客观地说,V4-Pro在数学推理等维度上与GPT-5.5仍有差距。但在编程、Agent能力和价格维度上,V4已经具备了真正的竞争力。正如NoteLM.ai的评价:"DeepSeek V4 matches GPT-5 in math benchmarks; most users will be well served by V4."

对大多数开发者来说,"够用"和"最好"之间的差距,不值得你多花20倍的钱。


商业化之困:开源的浪漫与现实的骨感

说到这里,不得不提一个尴尬的事实:DeepSeek至今还没有产生有意义的收入。

The Information和Bloomberg都报道了DeepSeek正在寻求首轮融资,目标估值从最初的100亿美元上调至200亿美元以上。腾讯、阿里等巨头正在积极谈判。

一边是技术上的"国货之光",一边是商业上的"尚未盈利"。这种反差在互联网行业并不罕见------当年的安卓也是开源免费的,Google靠的是生态和服务变现。DeepSeek的路线大概率也是类似的:用开源模型建立生态壁垒,再通过API服务、企业解决方案、一体机硬件等方式变现。

中国电信的DeepSeek一体机75天拿下6亿订单,也许就是这条路的起点。

但时间不等人。OpenAI的估值已经超过3000亿美元,Anthropic也在快速商业化。DeepSeek需要在技术和商业之间找到平衡,否则"开源的浪漫"可能会变成"商业的遗憾"。


一个从业者的私心话

最后,说点个人的感受。

从DeepSeek V2到V3,从R1到V4,我跟了DeepSeek差不多两年。说实话,每次看到他们发布新模型,我都有一种很复杂的心情------既有"我们自己的模型终于行了"的骄傲,也有"这个世界变化太快了"的焦虑。

这次V4让我特别感慨的是它的"华为昇腾适配"。

在AI行业做久了,你会知道"换技术栈"意味着什么。那不是改几行代码的事,那是把你整个地基挖了重新浇。英伟达的CUDA生态做了十几年,积累了无数的开发者工具、优化库和最佳实践。要从头在华为的CANN上重建这一切,需要的不只是技术能力,更需要一种近乎偏执的决心。

而DeepSeek做了。不是因为更容易,恰恰是因为更难。

我不知道这种"偏执"最终能不能赢。但我相信,一个愿意在最难的路上下注的团队,值得被看见。


怎么体验?

方式 入口 备注
网页体验 chat.deepseek.com 免费使用,有快速/专家两种模式
手机App iOS / Android 应用商店 已更新至V4版本
API调用 api-docs.deepseek.com 兼容OpenAI SDK,改模型名即可
开源下载 Hugging Face搜索 DeepSeek-V4-Pro Apache 2.0协议,可商用
云服务 华为云、联通云、天翼云 各大运营商均已适配

网页端和App基础功能免费,API按量计费。V4-Pro目前因算力限制服务吞吐有限,官方预计下半年昇腾950超节点量产后会大幅扩容。


(本文写于2026年4月24-25日,数据来源于DeepSeek官方公告、HuggingFace、路透社、华尔街见闻、36氪、知乎、Reddit、掘金等公开信息源。文章仅代表个人观点,不构成投资建议。)


相关推荐
TS-338 小时前
Codex 接入 DeepSeek API 完整配置文档
proxy·codex·deepseek·反代
Cosolar9 小时前
🤷‍♂️ 憋了这么久的DeepSeek-V4:终究还是没拿到开源大模型榜一
llm·agent·deepseek
AC赳赳老秦14 小时前
OpenClaw与Excel联动:批量读取/写入数据,生成可视化报表
开发语言·python·excel·产品经理·策略模式·deepseek·openclaw
懷淰メ1 天前
【AI加持】基于PyQt+YOLO+DeepSeek的车型检测系统(详细介绍)
yolo·目标检测·计算机视觉·pyqt·项目设计·deepseek·车型检测
AC赳赳老秦2 天前
OpenClaw与Notion联动:自动同步工作任务、整理笔记,实现高效管理
运维·人工智能·python·数学建模·自动化·deepseek·openclaw
AC赳赳老秦2 天前
OpenClaw界面错乱、闪退问题,一键修复教程(附工具)
人工智能·python·职场和发展·django·tornado·deepseek·openclaw
大模型真好玩2 天前
LangChain DeepAgents 速通指南(七)—— DeepAgents使用Agent Skill
人工智能·langchain·deepseek
刘大猫.3 天前
华为昇腾芯片将为DeepSeek-V4推理,通往国产算力自由
华为·ai·大模型·算力·deepseek·deepseek-v4·昇腾芯片
懷淰メ3 天前
【AI加持】基于PyQt+YOLO+DeepSeek的口罩佩戴检测系统(详细介绍)
yolo·计算机视觉·pyqt·口罩检测·deepseek·ai加持