DEEPSEEK V4 实测：它不够炸裂，但正在啃最硬的骨头

DeepSeek V4，终于来了。

从 R1 算起，大家等了整整 15 个月。期间"下周发布"被调侃了无数轮，搞得像追更一部永远不更新的番剧。现在靴子落地，一次性放出两个版本------V4 Pro 和 V4 Flash，全部标配 1M 上下文，全部开源。

简单列一下参数：V4 Pro 总参数 1.6T（1.6 万亿），49B 激活；V4 Flash 总参数 284B（2840 亿），13B 激活。在网页端和 APP 上，Pro 对应「专家模式」，Flash 对应「快速模式」。

DeepSeek 自己对 V4 的定位相当坦诚。官方报告里白纸黑字写着，Agent 能力勉强对齐 Claude Sonnet 4.5，离 Opus 4.6、4.7 还有差距；世界知识赶不上 Gemini-Pro-3.1；推理性能倒是和 GPT-5.4 打得有来有回。整体判断是------"发展轨迹约滞后前沿闭源模型 3 到 6 个月"。这话由他们自己说出来，我还挺意外的，毕竟现在的 AI 圈子里，这么说实话的厂商已经不多了。

API 价格方面，V4 Pro 比 V3.2 涨了约 6 倍，V4 Flash 反而降了约 50%。另外提一句，Coding Plan 依然没有，不知道后续会不会安排上。

以上是官方给的账本。下面进入实测环节。

一、编程：3D 任务

先跑一个 3D 前端的老活，看模型在空间想象和逻辑推理上的功力。

KEY SIGNAL

提示词：制作一个 3D 的雪山场景 HTML，雪山中间有一座日式寺庙，整体风格参考《塞尔达：旷野之息》。

一圈跑下来，"开源五杰"各显神通。GLM-5.1、Qwen3.6-Plus 和 Gemini-3.1-Pro 属于同一梯队，剩下几家稍逊一筹。细节上，GLM-5.1 和 Qwen3.6-Plus 是最能打的------雪山粒子特效、日式建筑的还原度、对塞尔达风格的理解，明显比其他模型高出一截。DeepSeek V4 Pro 在这个 case 里只能说中规中矩，不出彩但也不翻车。

我又补了一个 3D 魔方的经典 case，V4 能一次还原。不过说实话，这个难度在当下已经不算挑战，最新一批模型基本都能 one shot 跑通。

二、编程：SKILLS 任务

藏师傅今天开源了一个 PPT skill，名字叫「guizang-ppt-skill」，我只能说------真的离谱。

生成的 PPT 是一个 HTML 文件，几十 KB，发谁谁就能在浏览器打开，字体不丢、动画不崩。藏师傅自己是这么形容的："这是我十年审美的压缩包。"一点不夸张。

我第一时间把这个 skill 怼进了 Claude Code，然后切到 DeepSeek V4 Pro 跑了一个 case：让它把我前一天的文章设计成 10 页 PPT。出来的效果------排版、风格、字体搭配，每一页我都挑不出大毛病。略微改改文字（用 Trae 或文本编辑器就能搞定），这套 PPT 直接能上台。

三、编程：网站开发

这个 case 是让 V4 Pro 给我做一个摄影师作品集网站。我给它扔了一个文件夹的模特照片，身份设定是：我是拍模特广告的摄影师，工作室叫「小逸摄影」，目标是生成一个审美在线、有大片质感的作品网站。

之前用 Qwen3.6-Plus 跑过同样的需求，效果非常惊艳。这次换 V4 Pro 上------深色背景、Hero 全屏、网格画廊，大方向上的审美判断基本和 Qwen3.6-Plus 在一个层级。但扣细节的话，Qwen3.6-Plus 在 logo 设计、文字配色和交互动画上还是要更细腻一些。

四、AGENT 长程任务

进入重头戏。还是我们的保留项目：让 Claude Code 执行一个连环复杂任务------联网搜索 + 生成 Word 报告 + 调用 skill + 搭建网站。

KEY SIGNAL

提示词：联网搜索、调研张雪机车的发展轨迹，尽量从权威信源获取信息。首先，给我创建一份 5000 字的 Word 调研报告。然后，调用 Knowledge Site Creator Skills 给这份报告创建一个知识学习网站，页面高级审美。

这次 V4 Pro 跑了整整 33 分钟，很慢，但确实跑完了。交付了两样东西：一份 Word 报告，一个知识学习网站（带后端的那种）。

报告内容相当扎实。最近我一直在把 DeepSeek 当检索工具高频使用，回答质量确实稳，去年的幻觉问题已经大幅收敛。网站这边更让我惊喜------直接带了后端和数据库，我往里面加数据就能真正用起来。

以上四个 case 跑完，总共烧了 450 万 tokens，花了 10 块钱。蹲一个 Coding Plan，真的，蹲了好久了。

五、世界知识任务

世界知识要系统测确实麻烦，我先挑了一些冷门领域的问题问它（全程关闭联网），基本都能答得靠谱。

一些没那么新但也不算旧的知识，它也训进去了。但真正刚发生的事情------不行，确实不知道。我问它训练数据截止时间，它说是 2025 年 5 月。

六、写作任务

写作测试用的是我日常最常干的事：让 AI 续写。给一段风格鲜明的原文，让它接下去 300 字。

这段原文是我自己写的："现在，谁发我一张图，我的第一反应都是：'这是不是 GPT 生成的？'人类社会，大家能够坐下来一起讨论事情，最基本的前提是，我们活在同一个现实里，对最基础的事实认知是一致的。而今天，目光所及的一切都在崩塌。"

DeepSeek V4 Pro 的表现------还行，但老毛病没改：喜欢拽技术词，"锚点""脚本""图灵测试"这些词老往外蹦，读着就不像人话。

GPT-5 就明显自然多了，输出的东西有人味儿。GPT 也一直是我写作的主力模型，不过用的时候要微调，比如让它别老"不是......而是......"，破折号和冒号也别没完没了地往上堆。

Gemini-3.1-Pro 就......继续拉胯。堆了一堆成语，不但没用还对不上原作的调性，读起来割裂感拉满。上周我跟大家聊写作经验，评论区一片哀嚎说 Gemini 3.1 / 3.0 远不如 2.5，所言非虚。

Claude-Opus-4.6------写作能力，依然是天花板。

写在最后

一轮测下来，我对 DeepSeek V4 的总体评价是："一般货色"。

这其实和他们自己的判断对得上------距离全球最顶尖的模型（不分开源闭源），大概还有 3 到 6 个月的身位差。官方文章里写了一句挺克制的话：「不诱于誉，不恐于诽，率道而行，端然正己。」翻译成人话就是：不因为夸奖飘起来，也不因为骂声慌神，走自己的路，把身板立正。

但有意思的事情来了------今天的 AI 行业，已经没什么人愿意接受"一般货色"这四个字了。你发一个新模型，如果做不到吊打、碾压、重构一切，舆论很容易直接定性为"没意思"。可是冷静下来想想，这种期待本身就不太正常。技术的发展从来不是一根直线往上冲，也不是永远指数增长。"前进---倒退---前进---再前进---又倒退"，这才是常态。很多时候，真正影响行业格局的，反而是那些看着差一点点的版本：稳了一点、可控了一点、生态完善了一点。

DeepSeek V4 给我的感觉，就是这样一个"差一点点"的版本。

它不惊艳，但它在补课------

重写注意力机制，对 Token 维度做压缩，叠上自研的 DSA 稀疏注意力，把上下文从 128k 一把推到 1M，而且是全系标配。重改模型架构，同时适配英伟达 GPU 和华为昇腾 NPU。重换后训练路径，从 V3.2 的 SFT+混合 RL，切换到 On-Policy Distillation（OPD）------先练专家，再做融合。同时死磕 Agent 能力，对 Claude Code、OpenClaw、CodeBuddy 这些一线 Agent 产品做针对性优化。

这些事情，没有一件能上热搜。

但总得有人去做。而这一次，去做的人是 DeepSeek。

本文部分图片来源于网络，版权归原作者所有，如有疑问请联系删除。