DEEPSEEK V4 实测:它不够炸裂,但正在啃最硬的骨头

DeepSeek V4,终于来了。

从 R1 算起,大家等了整整 15 个月。期间"下周发布"被调侃了无数轮,搞得像追更一部永远不更新的番剧。现在靴子落地,一次性放出两个版本------V4 Pro 和 V4 Flash,全部标配 1M 上下文,全部开源。

简单列一下参数:V4 Pro 总参数 1.6T(1.6 万亿),49B 激活;V4 Flash 总参数 284B(2840 亿),13B 激活。在网页端和 APP 上,Pro 对应「专家模式」,Flash 对应「快速模式」。

DeepSeek 自己对 V4 的定位相当坦诚。官方报告里白纸黑字写着,Agent 能力勉强对齐 Claude Sonnet 4.5,离 Opus 4.6、4.7 还有差距;世界知识赶不上 Gemini-Pro-3.1;推理性能倒是和 GPT-5.4 打得有来有回。整体判断是------"发展轨迹约滞后前沿闭源模型 3 到 6 个月"。这话由他们自己说出来,我还挺意外的,毕竟现在的 AI 圈子里,这么说实话的厂商已经不多了。

API 价格方面,V4 Pro 比 V3.2 涨了约 6 倍,V4 Flash 反而降了约 50%。另外提一句,Coding Plan 依然没有,不知道后续会不会安排上。

以上是官方给的账本。下面进入实测环节。

01

一、编程:3D 任务

先跑一个 3D 前端的老活,看模型在空间想象和逻辑推理上的功力。

KEY SIGNAL

提示词:制作一个 3D 的雪山场景 HTML,雪山中间有一座日式寺庙,整体风格参考《塞尔达:旷野之息》。

一圈跑下来,"开源五杰"各显神通。GLM-5.1、Qwen3.6-Plus 和 Gemini-3.1-Pro 属于同一梯队,剩下几家稍逊一筹。细节上,GLM-5.1 和 Qwen3.6-Plus 是最能打的------雪山粒子特效、日式建筑的还原度、对塞尔达风格的理解,明显比其他模型高出一截。DeepSeek V4 Pro 在这个 case 里只能说中规中矩,不出彩但也不翻车。

我又补了一个 3D 魔方的经典 case,V4 能一次还原。不过说实话,这个难度在当下已经不算挑战,最新一批模型基本都能 one shot 跑通。

02

二、编程:SKILLS 任务

藏师傅今天开源了一个 PPT skill,名字叫「guizang-ppt-skill」,我只能说------真的离谱。

生成的 PPT 是一个 HTML 文件,几十 KB,发谁谁就能在浏览器打开,字体不丢、动画不崩。藏师傅自己是这么形容的:"这是我十年审美的压缩包。"一点不夸张。

我第一时间把这个 skill 怼进了 Claude Code,然后切到 DeepSeek V4 Pro 跑了一个 case:让它把我前一天的文章设计成 10 页 PPT。出来的效果------排版、风格、字体搭配,每一页我都挑不出大毛病。略微改改文字(用 Trae 或文本编辑器就能搞定),这套 PPT 直接能上台。

03

三、编程:网站开发

这个 case 是让 V4 Pro 给我做一个摄影师作品集网站。我给它扔了一个文件夹的模特照片,身份设定是:我是拍模特广告的摄影师,工作室叫「小逸摄影」,目标是生成一个审美在线、有大片质感的作品网站。

之前用 Qwen3.6-Plus 跑过同样的需求,效果非常惊艳。这次换 V4 Pro 上------深色背景、Hero 全屏、网格画廊,大方向上的审美判断基本和 Qwen3.6-Plus 在一个层级。但扣细节的话,Qwen3.6-Plus 在 logo 设计、文字配色和交互动画上还是要更细腻一些。

04

四、AGENT 长程任务

进入重头戏。还是我们的保留项目:让 Claude Code 执行一个连环复杂任务------联网搜索 + 生成 Word 报告 + 调用 skill + 搭建网站。

KEY SIGNAL

提示词:联网搜索、调研张雪机车的发展轨迹,尽量从权威信源获取信息。首先,给我创建一份 5000 字的 Word 调研报告。然后,调用 Knowledge Site Creator Skills 给这份报告创建一个知识学习网站,页面高级审美。

这次 V4 Pro 跑了整整 33 分钟,很慢,但确实跑完了。交付了两样东西:一份 Word 报告,一个知识学习网站(带后端的那种)。

报告内容相当扎实。最近我一直在把 DeepSeek 当检索工具高频使用,回答质量确实稳,去年的幻觉问题已经大幅收敛。网站这边更让我惊喜------直接带了后端和数据库,我往里面加数据就能真正用起来。

以上四个 case 跑完,总共烧了 450 万 tokens,花了 10 块钱。蹲一个 Coding Plan,真的,蹲了好久了。

05

五、世界知识任务

世界知识要系统测确实麻烦,我先挑了一些冷门领域的问题问它(全程关闭联网),基本都能答得靠谱。

一些没那么新但也不算旧的知识,它也训进去了。但真正刚发生的事情------不行,确实不知道。我问它训练数据截止时间,它说是 2025 年 5 月。

06

六、写作任务

写作测试用的是我日常最常干的事:让 AI 续写。给一段风格鲜明的原文,让它接下去 300 字。

这段原文是我自己写的:"现在,谁发我一张图,我的第一反应都是:'这是不是 GPT 生成的?'人类社会,大家能够坐下来一起讨论事情,最基本的前提是,我们活在同一个现实里,对最基础的事实认知是一致的。而今天,目光所及的一切都在崩塌。"

DeepSeek V4 Pro 的表现------还行,但老毛病没改:喜欢拽技术词,"锚点""脚本""图灵测试"这些词老往外蹦,读着就不像人话。

GPT-5 就明显自然多了,输出的东西有人味儿。GPT 也一直是我写作的主力模型,不过用的时候要微调,比如让它别老"不是......而是......",破折号和冒号也别没完没了地往上堆。

Gemini-3.1-Pro 就......继续拉胯。堆了一堆成语,不但没用还对不上原作的调性,读起来割裂感拉满。上周我跟大家聊写作经验,评论区一片哀嚎说 Gemini 3.1 / 3.0 远不如 2.5,所言非虚。

Claude-Opus-4.6------写作能力,依然是天花板。

07

写在最后

一轮测下来,我对 DeepSeek V4 的总体评价是:"一般货色"

这其实和他们自己的判断对得上------距离全球最顶尖的模型(不分开源闭源),大概还有 3 到 6 个月的身位差。官方文章里写了一句挺克制的话:「不诱于誉,不恐于诽,率道而行,端然正己。」翻译成人话就是:不因为夸奖飘起来,也不因为骂声慌神,走自己的路,把身板立正。

但有意思的事情来了------今天的 AI 行业,已经没什么人愿意接受"一般货色"这四个字了。你发一个新模型,如果做不到吊打、碾压、重构一切,舆论很容易直接定性为"没意思"。可是冷静下来想想,这种期待本身就不太正常。技术的发展从来不是一根直线往上冲,也不是永远指数增长。"前进---倒退---前进---再前进---又倒退",这才是常态。很多时候,真正影响行业格局的,反而是那些看着差一点点的版本:稳了一点、可控了一点、生态完善了一点。

DeepSeek V4 给我的感觉,就是这样一个"差一点点"的版本。

它不惊艳,但它在补课------

重写注意力机制,对 Token 维度做压缩,叠上自研的 DSA 稀疏注意力,把上下文从 128k 一把推到 1M,而且是全系标配。重改模型架构,同时适配英伟达 GPU 和华为昇腾 NPU。重换后训练路径,从 V3.2 的 SFT+混合 RL,切换到 On-Policy Distillation(OPD)------先练专家,再做融合。同时死磕 Agent 能力,对 Claude Code、OpenClaw、CodeBuddy 这些一线 Agent 产品做针对性优化。

这些事情,没有一件能上热搜。

但总得有人去做。而这一次,去做的人是 DeepSeek。

本文部分图片来源于网络,版权归原作者所有,如有疑问请联系删除。

相关推荐
Wanderer X2 小时前
【LLM】GSPO DAPO
人工智能
IpdataCloud2 小时前
IP查询工具的准确率怎么评估?一份可上生产的选型与验收指南
网络·人工智能·算法
薛定谔的猫3692 小时前
深度解析 AI Agent 的未来:MCP 协议如何重塑大模型生态
ai·llm·agent·技术趋势·mcp
大龄码农-涵哥2 小时前
Java调用AI大模型API入门:从零开始接入ChatGPT/通义千问
java·人工智能·chatgpt
沫儿笙2 小时前
焊接机器人弧焊节气设备
人工智能·机器人
人工智能AI技术2 小时前
网络协议基础:三次握手、四次挥手通俗讲解
人工智能
疯狂成瘾者2 小时前
大模型与后端如何协作?
人工智能
人工智能AI技术2 小时前
后端、前端、测试转大模型,哪个方向性价比最高
人工智能
AI 编程助手GPT2 小时前
【深度】GPT-5.5 重新定义编程、Copilot 转向 Token 计费、大模型进入“雅尔塔时刻“——2026 年 4 月 28 日 AI 编程三大变局
人工智能·gpt·ai·chatgpt·copilot·ai编程·#程序员效率