DeepSeek V4 Flash 好东西啊，多快好省！

DeepSeek 发布几天，大家都还在聚焦最强之争，所以测的一般是DeepSeek V4 Pro 版本。

Pro 我们也测试过了，确实还不错。

但是，当前测完 Flash 之后，我觉得 Flash 才是 DeepSeek的利刃啊！

主要是价格特别便宜，速度很快，能力也不错。

真的是价格屠夫！

下面我一点一点来分析，价格到底有多便宜，速度到底有多快，能力到底是什么水平？

1、价格

只要是商品，价格永远是关键因素。

因为正规渠道的 Token 还是蛮贵的，然后像编程、养龙虾这些 Token 消耗起来都是很猛的。

我们急需一个能力尚可，价格便宜的模型。

我汇总几个主流模型的价目表：

模型	输入价格	输出价格	缓存命中	上下文
DeepSeek V4 Flash	1	2	0.2	1M
DeepSeek V4 Pro	12	24	1	1M
Kimi K2.6	6.5	27	1.1	256K
Kimi K2.5	4	21	0.7	256K
GLM-5.1（≥32K）	8	28	2	200K
GLM-4.7（≥32K）	4	16	0.8	200K

从表格可以看出来，Flash 这个价格是很香的！

1M 上下文，输入，输出，缓存命中的价格都远低于同行！

而且不是低一点点哦，是低到离谱！

Flash 输入输出价格不到 Pro 的十分之一！

相比 Kimi 和 GLM 也是非常便宜！

便宜到我都怀疑，我是不是抄错了！

我再三确认，数据应该是正确的，我都是官网抠的数据！

2、速度

价格很香，那么速度怎么样呢？

我让 GLM5-Turbo 帮我写了一个测试脚本，每个模型都测试 10 次，并做了汇总。

DeepSeek V4 Pro 和 Flash 的数据如下：

Flash 版本在所有速度指标上都大约是 Pro 的 1.6-1.8 倍，延迟仅为一半，API 状态良好。

Flash 相比 Pro 是很明显是要快很多，有几项指标都翻倍了！

作为对比，我也测了一下 GLM5.1：

GLM 5.1 的表现明显偏慢，主要问题是：

首 Token 延迟极高 --- 平均 10.4 秒，波动很大（最低 0.9s，最高 22.2s），说明存在严重的排队/冷启动问题

thinking tokens 为 0 --- 脚本未检测到 thinking 内容，但首 Token 到首文本 Token 之间有大段空白时间被计为 "thinkingtime"，导致 overall t/s 被严重拉低（7.02）

纯文本速度 22 t/s 也低于 DeepSeek 的两个模型

这可能说明 GLM 5.1 的 API 端点有较大的排队延迟。

最后我也把 Kimi K2.6 加上了：

Kimi K2.6 的情况和 GLM 5.1 类似：

thinking tokens 为 0 --- 未检测到 thinking 输出，但首 Token 延迟很高（平均 4.5s），存在明显的"思考但未上报"阶段

纯文本速度 28.86 t/s，介于 GLM 和 DeepSeek 之间

overall t/s 只有 9.11，被隐藏的思考时间严重拖低

延迟波动大（最低 2.7s，最高 12.5s）

整体来看，DeepSeek V4 Flash 在速度上遥遥领先。

Kimi 和 GLM 都因为未正确上报 thinking tokens 导致 overall t/s 偏低。

如果只看纯文本生成速度，排名是：Flash > Pro > Kimi > GLM。

上面都是 GLM5.1 根据测试情况做的总结，我就不多说了！

我就重复一点：Flash > Pro > Kimi > GLM，Flash 在速度上翻倍级领先 。

3、能力

速度和价格的优势已经非常明显，不是说领先一点点，而是领先好多个点！

那么能力如何呢？这个就非常关键了！

如果能力 OK，那就是性价比神器！如果能力不行，那么说再多都没有任何意义。

能力这个维度，我会分几个部分来介绍，一个是问答，一个是前端页面设计，一个是复杂项目升级！

先从简单的测起，做一些常规问答和智力测试。

数字母

题目：

DeepSeek 里面有几个 e？

结果：

其他模型我先不评价，Flash 是回答正确的。

这个题目正常来说，所有模型都能回答正确的。

但是你会发现有些模型答错了，只能证明一个点：要么没有启用思考模式，要么后面是降智模型。

性能指标：

Flash 在首字延迟和总耗时方面都是最短的。

比大小

题目：

11.9 和 11.12 哪个数字大？

结果：

Flash 同样是回答正常的。

性能指标：

Flash 在两个时间维度上，又是最佳表现。

找正整数

题目：

找出一个正整数 n，使得 n! 可以被 2^n 整除。

结果：

因为 Flash 第一次没有答出来，我就加测了两次。

第二次：

第三次：

从这三次结果来看，DS 可以正常回答这个问题。但是有时候思考 token 过多，导致达到请求大小的上限。

性能指标：

在能回答出来的情况下，Flash 首字第一，总耗时第二！

空间推理

题目：

6 米长的竹竿能否通过 4 米高、3 米宽的门？

结果：

这个题目也没有结果，所以加测了两次！

第二次：

第三次：

这一题对错不重要，应该大家都是乱猜的，完全是抽卡概率的问题。

但是 Flash 很容易思考过久，并且回答不一定正确。Pro 基本是可以答对的。

性能指标：

在能答出来的那一次，Flash 首字第一，总时间第三。

帽子逻辑推理

题目：

有 5 个人排成一排，每人帽子颜色为红或蓝。他们可以看到前面的人的帽子，但看不到自己的。主持人宣布："至少有一顶红帽子。"从最后一人开始，每人依次说"是"或"否"（表示是否知道自己帽子的颜色）。如果第 5 人说"否"，第 4 人说"是"，求所有可能的帽子颜色分布。

结果：

这一题全部正确！Flash 自然也是正确的。

性能指标：

时间方面，Flash 首字第一，总耗时最后。

从这几个题目可以看出来，Flash 的首字延迟非常低，几乎都是第一，而且比第二名快很多。

正确率方面 80% 的样子！整体感觉和 MiniMax M2.7 有来有回，它们的激活参数都在 10B 左右！

GLM5.1 这两天的测试结果非常奇怪。

一个是很慢，另一个是简单问题都会答错。

可能默认情况下没有启用思考，或者后端分配了其它模型，表现甚至不如 Flash。

9 个前端页面

这项测试也已经持续了很久，每个页面其实都有自己的技术考点，除了实现基础之外，视觉上是否好看也是一个很重要的指标。

测试的题目包含了：

赛博朋克版《清明上河图》
"无限流"文字冒险游戏
"分形烟花秀"
Emoji 版《泰坦尼克号》
纯 CSS 中国山水画
完整横版跑酷游戏
诗词版黑客帝国代码雨
纯前端 3D 太阳系
AI 五子棋对战 + 华丽 UI

这个CCS 山水画好像意境还可以，就拿这个作为本章节配图了！

我已经仔细看过它的生成结果了，这部分中规中矩，偏下一点点。

有两个例子是直接没法显示的，应该是出现了JS 错误。

其它都能正常显示，但是基本上没有太多审美可言。

但是这个测试过程中，有一个让我非常意外的点。

为了快速测试，我一次性把九个题目扔给他了，然后就出现了很壮观的一幕。

它直接开了 9 个 Agents 并行开发：

中途又把 Agent 干到了 16 个。

最后它只用了 12 分钟，做完了 9 个例子。

相比之前用 Pro 测试一个例子都要 16 分钟，这并行能力效率高到飞起！

需要注意的是，在管理这些子代理的时候，可能遇到了一些问题。

因为正常是 9 个例子，它却开了 16 个代理，其中有大量重复的任务。

更加好玩的是，它批量生成的页面代码全是可以正常运行的，并无明显的错误。

反而是分开测试的，错误不少。

所以，可能是一次性做会更好，也可能只是抽卡的偶然性！

当然，我也进行了单独的测试，速度明显比 Pro 快很多，提速 50~70% 应该是有的！

角色群聊功能升级

这一环节，是让我比较惊讶的，也是我写这篇文章的核心原因！

测试背景： 基于 CodingPlan 项目（约 8,000 行代码），进行功能升级，从平台群聊，升级到基于角色的群聊。

测试特点：

有一定上下文基础（约 8,000 行代码）
涉及数据结构修改和老数据升级
涉及业务逻辑修改
涉及多个功能页面联动修改

Flash 极速完成了这个任务，下面来看一下结果。

首先，编译正常，启动正常，点击所有功能点，都没有出现报错的情况。

这个基础能力是过关的。

然后来看具体的功能。

角色管理部分：

这部分功能设计并不是太好，它没有把头像，平台，模型等信息显示在这个列表中，非常不直观。

但是它功能是正常的，在添加和编辑页面都可以正常显示和编辑头像和平台信息。

然后看一下群聊创建功能：

这一部分做得很好，已经添加了角色选项，并且和平台选项做了区分，并且可以看到我们设置好的几个角色了。也可以成功创建会话。

核心功能群聊界面：

这部分让人惊讶，居然全对，没有任何问题。

功能正常，头像显示正确。

这个环节很多选手都会在头像和名称上踩坑。比如上次测试 Pro 的时候，就是对话中头像显示有问题。

这个例子表现出乎意料的好。这可是我手上最有挑战性的例子的呀。几个月前，好多模型都是错漏百出。

最牛逼的点是，它只用了 9 分钟 45 秒。

从上面可以看到，10 分钟不到，它就已经开始安装运行环境了。到这里基本就是代码写得差不多了，要开始跑起来了。

加上安装环境和验证的时间，总共也才 15 分钟。

这个效率简直高到爆炸！ 之前还没有人做到过，又快又准。

说实话，看到这个例子我有点难以置信。因为这个例子确实有点难度的，光靠抽卡的运气是做不到这个效果的，可能它就是比较擅长这种包含业务逻辑的代码。

价格、速度、能力能谈完了！你们觉得怎么样？

考虑到价格极低，速度极快，项目实战能力强。

不可能的三角，达到了微妙的平衡。

我觉得 Flash 才是 DeepSeek V4 的利刃，没有人可以拒绝性价比。

Pro 老哥负责秀肌肉，Flash 老弟负责多快好省地干活。

我关于 DeepSeek V4 的第一篇文章主题叫《天下苦 Token 久矣，DeepSeek V4 终于来了！》

看来，Flash 的便宜 Tokens 还是很不错的！