测一波MiMo 2.5 Pro，看看真实实力！

这两天其实聊 DeepSeek 的人并不算多，但是小米的营销攻势还挺猛的！

早上刚刷到一条 X：

这是小米大模型负责人的罗福莉发布的推特，里面说到了两个点：一个是小米也开源了，另一个是要送 100T 免费 Tokens。

国内模型好像都开源了，最早好像是 Qwen、GLM，然后 Kimi、MiniMax 也都纷纷开源，小米出来之后也跟了一波。

至于 100T 免费嘛，自然是有条件的，也不是给你一个人的。

除了这些活动之外，早就已经有超级大 V 开始夸这个模型了。

类似"国内顶级，Claude 最佳替代"，这种表述也不少见啊。

开源和送 Token 都是好事情啊！ 大家有需要的赶紧去看看。

我其实从 MiMo 最早的 Flash 就开始测试了，当时的效果是非常拉跨的。

然后又测了 MiMo 2 Pro，好了很多！

我之所以接触这个模型，就是因为被一波又一波的吹牛逼给带进来的，触发了我强烈的逆反心理。

你们看我之前的文章也能感受出来。

今天我就来给最新的 MiMo 2.5 Pro "把把脉"。看看是否能够改变我对小米MiMo的看法！

1、基准数据

开始测试一期，我们先来看一波"卖家秀"！

我从官方找到了这张基准测试图：

这个基准分成了两部分：一部分是通用智能体，一部分是编程智能体！

这个表格给了我严重的误导，我以为标黄加粗的是所有模型中的 SOTA 指标。

乍一看，Opus 4.6 好像很辣鸡，没有一个加粗标黄的！

仔细一看，下面有个细线。

这种心理暗示玩法真的是......"高级"！

抛开暗示，我们看明示，这个基准数据还是很能打的！

从这里看它是压着 DeepSeek V4 Pro 打的。

只有 SWE-bench Verified 这一项稍微弱一点。

看完常规基准，看一下 Claw-Eval

这个表格讲的是 Claw-Eval 上的"成功率 vs Token 消耗效率"。

越靠左上越好。

左边代表平均每条任务轨迹消耗 token 少，越省钱/越快；

上边代表 Pass^3 成功率高，能力越强。

简单说就是：模型完成一次任务平均要花多少 token。

这个图的主要表达：

在这个维度上 MiMo 2.5 Pro 比较优秀，甚至数一数二的存在了。

DeepSeek V4 Pro 和 Flash 要比它差不少！

还有一张关于 Claw 的图：

这是 Claw-Eval 的 General 榜单排名。它不是综合所有能力的总榜，而是 Claw-Eval 里面的一个子榜。

主要评估模型在通用智能体任务里的表现。

从这个排名来看，小米第三，仅次于 Sonnet 4.6 和 Opus 4.6。

要比 Kimi K2.6 和 GPT5.4 还高不少。

另外还有一张图：

从这个榜单来看，小米 MiMo 2.5 Pro 实现了大幅度的跨越，要比 GLM5.1 高五个名次，比 DeepSeek V4 高四个名次。

官方能贴出来的数据，我都贴出来了。

单看这些数据，基本上可以得出一个结论：

MiMo 2.5 Pro 通用智能体国内最强；Claw 性价比几乎最高，能力也是 Top 3；编程智能体方面还差点意思，但是和国产模型比，也是有来有回。

单看推上贴图的数据，真的是一个很不错的模型，几乎是国内模型首选了。

好了，基础信息终于介绍完了。我们要动真格的了。

下面会分几个环节进行测试，首先是基础问答，智力测试，然后是网页开发测试，最后是实战项目升级开发。

因为 DeepSeek V4 和 MiMo 2.5 Pro 有一定渊源，而且在同一个时间段发布，很多方面都有重叠，所以会重点对比这两家。

2、简单问答&速度测试

我们先来一些简单，然后慢慢上强度！

问答部分我们全部采用 API 接入，排除联网和应用层的差异。使用的测试平台，是我自己手搓的 CodingPlan Test 平台。

昨天晚上用 Sonnet 4.6 对这个平台进行了一个小的升级，现在可以设置思考模式以及统计端到端速度和解码速度。

我会把思考模式全部设置为 Anthropic 的自适应模型，等级为 high。

端到端速度是指：总的 Tokens / 总的时间。

解码速度是指：输出的 Tokens（排除 thinking）/ 输出阶段的时间。

这两个指标都用来体现速度的。

下面统一选了四个 AI 模型作为对比：

分别是 GLM5.1，Kimi K2.6，MiMo 2.5 Pro，DeepSeek V4 Pro。

基础信息交代完了，我们就来开始测试了。

数数题

测试提示词：

DeepSeek 里面有几个 e？

测试结果：

因为我全部开启了思考模式，所以这个问题全部正确。之前 GLM5.1 一直回答错误，主要是因为他们家默认关闭了思考模型。只有强制开启，才会启用。

正确性一样的前提下，我们只要看性能数据就可以了。

性能数据：

这一趴，DeepSeek 首字延迟最低，MiMo 总时间最少，解码速度最快，Tokens 消耗最少。

比大小

测试提示词：

11.9 和 11.12 哪个数字大？

这个环节也是全部正确，直接看性能指标。

这一部分首字最快的还是 DeepSeek，MiMo 在端到端和解码速度方面排名第一。

在 Token 消耗方面，DeepSeek 略胜 MiMo。

找正整数

测试提示词：

找出一个正整数 n，使得 n! 可以被 2^n 整除。

这一部分，也是全对。思考模式下，这种问题都不是问题。

性能指标如下：

首字依旧是 DeepSeek 最快，MiMo 在总耗时、速度、Token 消耗方面全部第一名！

空间推理

测试提示词：

6 米长的竹竿能否通过 4 米高、3 米宽的门？

这个问题呢，目前对 AI 来说还是有难度。很多 AI 模型无法多次稳定回答正确。

比如这一次：

GLM 和 MiMo 回答错误。Kimi 和 DeepSeek 回答正确。

值得注意的一点是，DeepSeek Pro 测了好几期都没有出现过错误。MiMo 第一次测就出现了错误。

性能数据：

MiMo 依旧是最快的，Tokens 也比较省。

DeepSeek 这一轮速度和 Tokens 都不占优势，但是答案正确！

帽子逻辑推理

测试提示词：

有 5 个人排成一排，每人帽子颜色为红或蓝。他们可以看到前面的人的帽子，但看不到自己的。主持人宣布："至少有一顶红帽子。"从最后一人开始，每人依次说"是"或"否"（表示是否知道自己帽子的颜色）。如果第 5 人说"否"，第 4 人说"是"，求所有可能的帽子颜色分布。

这一题是要一点计算量和脑力的。

测试结果如下：

MiMo 做错了，其它全对！

性能数据：

小米 MiMo 在速度、总时间、Token 消耗方面都是第一。DeepSeek 在它后面一点。

五个题目测完了，前面的两个对思考模型来说是很简单的，后面的逐渐变难。

可以看到小米在端到端速度、解码速度、Tokens 消耗等方面确实优势明显。

但是智力稍弱！正确率 60%

DeepSeek 首字速度很快，整体速度偏慢，答题正确率 100%。

其实这一点从参数也可以看出来，一个是 1.6T 激活 49B，一个是 1T 激活 42B。

大一点的脑子会好一点，但是慢一点。

3、写几个前端页面

我专门设计了 9 个测试题目，每个测试题目考察点都不一样。

九个例子我已经都跑完了，发现其中一个例子，有低级错误。

"霓虹奔跑者"这一题写完之后无法启动游戏，因为有 JS 错误！

其他页面都是可以正常打开，没有大的逻辑问题，但是审美什么也是不存在的。

感觉和 DeepSeek V4 差不了多少。

因为很多都是动态的例子，我就不截图了。

我会把所有测试结果统一传到 TOPAI 上面：

网址：topai.tonyhub.xyz/

4、帮我升级项目

这个项目描述我都快写吐了，老粉应该很熟悉了。

这个项目其实不简单的，但介绍部分我就简单说了。

这个叫 CodingPlan Test，专门用来测试大模型的。然后开发国产遇到了问题，需要升级项目，我就把这个功能剥离出来作为测试项目了。

目前已经测试过了几乎所有的国内外模型。

包括国内的DeepSeek V4 Pro 和 Flash；智谱家的GLM5.1，turbo，4.7；月之暗面的Kimi K2.6,2.5等等

也包括国外的 GPT5.4、Opus 4.6、Gemini 3.1 Pro 等。

从前期的结果来看，国外模型基本都能完成大致内容，没有低级错误。而国内模型，在两个月前，有一大堆无法完成这个升级任务，错漏百出。

所以，还是一个挺不错的测试项目。而且自己的项目，可以避免被提前训练的情况。

这个任务主要有几个关键点：

有一定上下文基础（约 8,000 行代码）
涉及数据结构修改和老数据升级
涉及业务逻辑修改
涉及多个功能页面联动修改

基本情况说清楚了，我们就可以来看测试结果了！

我一般会从几个角度来评判：能不能用，好不好用，全不全面。

首先，开发完成之后，启动正常，打开首页正常，各种功能点击正常，也就是能用。

然后，我们通过具体的功能页面，看一下是否好用。

角色管理：

这个功能基本正常，查看，添加，删除，绑定平台，模型，这个功能全部正常。而且用第一个字来做默认头像，这种设计好像就它想到了，也是现在一种比较常用的方式。

这个功能里，唯一有问题的一点是头像设置。

头像设置完成之后，回填的路径有问题，导致头像无法显示。这个问题不是很大，应该好解决。但是有问题就是有问题，头像在显示部分还是蛮重要的。

创建群聊：

这部分完全正常，可以选择角色，也可以显示配置好的角色。

群聊界面：

这个是核心界面，看了一下显示和业务逻辑全部正常的。唯一的问题就是头像显示的问题。这个问题会贯穿所有功能。

平台编辑功能：

这一步是测试是否全面的关键一步。它做到了，把这里的角色管理给删掉了，减少了系统的冗余。

这一步做得很好！

下面看一下开发过程。

我把提示词给它之后，它的首次分析如下：

这部分废话不多，但是观点抓的还是可以的。提到了五个点，基本上都是到位的。重点是它考虑到了角色和系统提示词是否要保留的部分，证明分析问题很全面。

这是它自己规划的任务列表：

这是最终消耗的时间：

全部完成用了 36 分钟，代码修改大概用了 28 分钟。

这个时间相对来说是比较长，属于第三梯队。还好结果是比较好的，属于第一梯队。

相比 DeepSeek V4 而言，小米 MiMo 2.5 Pro 做得要全面一点点。就是有一个头像设置的小问题。就时间而言，DeepSeek 会快不少。

我最近都有点怀疑我的例子是不是被优化训练，近期几个模型好像做的都还可以，关键点都把握的不错。不行，我得找新例子了！

最后来看一下消耗了多少钱：

总共消耗了21.20，因为这之前已经消耗了一点。所以这次大概就是20元的样子。和不打折DeepSeek的测试消耗差不多！

该展现的我就展现了，我整体感觉是比逾期好不少！

因为它们第一个版本是很拉的，相比而言进步较大。

常规问题智商不高，速度挺快，网页设计一般，项目实战表现不错，消耗时间较长。

从这1T以上的大模型比较的话，还是比较有性价比的，但是要和DeepSeek V4 Flash比，那就完全没法比了。

感觉抛开国外的模型"不谈"的话，最近国内的模型也都还可以！

今天有点可惜，没有让我抓住开大的机会。

这种测试强度有太点大，文章也很长，太累了 !

要把水端平，老老实实做测试好难啊。

好久没骂人了，好难受啊，明天我要开始骂人了😄，猜猜谁是那个倒霉蛋！