MiMo2.5Pro《江湖百晓生》测试过程和结果！

MiMo 的 16 亿 Tokens 快到期了，紧急加测了一波。然后......彻底拉了，虎头蛇尾，虚有其表！

先给你们看张图吧：

就这个网页消耗了 16 亿中的 4%，大概是 6400 万！

同样的题目，Opus4.7 和 Gemini3.5 真的完全是吊打它！

下面是 Opus4.7 做的效果：

下面是 Gemini3.5 做的效果：

结果展示完了，我们来看一下细节。

这是 AI 实战开发测试《江湖百晓生》的第二篇！

我们的主题是：开发一个以金庸古龙为主题的武侠百科，要包含主要人物、兵器、武功等等内容。

下面我会把开发工具、开发过程给大家展现一下，深入体验一下 MiMo 在实战中的表现。

开发工具

我现在基本上不用 CCSwitch 了，我都是用自己的 JCode + Claude Code！

配置好之后，只要打开 JCode，直接双击图标启动 CC 就可以：

不需要直接去终端输入 Claude，也不需要 cd 到指定路径，也不需要直接配置环境变量、修改配置文件。

只要通过软件的添加功能：

添加 API key 和写上正确的 Base URL 即可！

我其实内置了小米的 base URL，但是由于小米的默认接入点和 Token Plan 的接入点不一样。所以如果要用 Token Plan 的套餐，就需要按截图中调整。如果是默认充多少用多少的 API，就不需要修改了。

配置完成之后，以后就不用管了。

直接双击图标启动，选择一个文件夹，就能开干了！

开发过程

为 MiMo 创建独立的测试文件夹。

然后通过 JCode 快速启动 CC。这个时候就可以在 CC 调用 MiMo 的 Token Plan 了。

然后，只要把我们的需求告诉它就可以了。这个需求和测试 Gemini3.5 Flash 的是一模一样的。

核心需求：

我想要做一个'江湖百晓生'的网站。主要是收集金庸古龙的武侠小说，首先也要找到所有的小说，然后是整理其中的人物、兵器、场景、武功招式。你可以凭记忆完成，也可以去网上收集所有资料，需要存档，然后制作武侠风格的网页，用极具特色的方式组织展现这些内容！这是一个庞大的任务，请做好计划，并且打算运行很长时间。需要保证数据的准确，不要偷懒！"

然后把这个需求一粘贴，一个回车，就开始干活了：

小米MiMo刚开始这个架势还是很不错的。

首先说了句"这是一个庞大的任务，我先了解情况，然后制定详细计划"。

然后就是开始让我选技术栈了。

首推是 HTML/CSS/JS 路线，因为我测 Gemini 的时候选了 React，所以这里也选这个！

这里给的四种方案还是比较全面的，基本上就是这几种了。

然后进入下一步：

第二步是展现风格，看起来非常不错哦！

复制代码

1.古风巻轴/竹简
模拟古代卷轴展开效果，翻页阅读

2.江湖地图门派分布
以地图形式展现门派、人物关系

3.武侠卡片/图鉴
类似游戏图鉴，卡片式收集展示

4.综合门户/百科全书
类似维基百科的结构化知识库

这候选项超预期啊，都考虑到这么多风格了，我都不知道选哪个好呢。那我就选默认的"古风卷轴"吧！

继续进入下一步：

这一步是数据深度。

这里提供了 3 个选项。我希望数据多一点，我本来就是来消耗 Tokens 的。

所以我就选了"3.尽量全面"！

继续下一步：

这一步是执行方式，可以选择先看计划，或者直接开始，或者分阶段开始。

我自然是先看计划！

全部选完之后，就进入计划环节了。

我看了一下具体计划内容：

看这计划做得挺好的，挺详细的！

既然它都做得这么详细了，我就不提供任何意见了。直接让它按计划完成！

到目前为止，我感觉他都很厉害阿啊！这个ask和Plan环节非常专业啊!

然后...一顿操作猛如虎，结果：

就生成了这样一个网页，布局完全是乱的，内外边距，间距，位置，全乱。

看一个模型的前端能力和思考能力。第一个就是要看布局和构思。如果布局清晰，基本上就是业务逻辑整清楚了，然后前端技术也到位了。

这个前端肯定已经拉了，我没啥好说了。这种布局一旦出现，你要去让它调好，就会很难。因为它不理解这种空间感。

下面我们来看看数据：

我的要求是越全面越好，然后看了一下它的数据。

总共收录了21个人物、23部小说、10件兵器、13门功夫、10个门派。

这......一部小说里也不止这么多东西啊。

所以很显然，它在抓数据的时候偷懒了。

"AI 偷懒程度"其实也是一个重要的技术指标。

Claude 和 OpenAI 发布新模型都会强调，模型能独立运行几十个小时。其实他们要强调的不是时间长，而是能自主连续干活的时间长。

因为复杂的问题，就是需要消耗时间的。

现在他们都推出了 /goal 命令，可以设定一个可验证的目标，让模型自己长期循环跑到完成为止。

MiMo给我的感觉是，做这个事情计划看起来很好，但是执行的时候比较拉跨，偷懒也比较明显。

Gemini3.5 Flash 在完成这个任务的时候，抓数据也偷懒了。

但是奈何人家前端优秀啊，秀到不行！ 基本业务逻辑也整理的清清楚楚。

MiMo 刚上那一会儿，我用了好几个例子来测试，当时并没有测出大问题，好像表现也挺不错。

极有可能那些例子已经被优化训练了。

最近测了两个例子，表现非常拉跨。

一个是《掌门日记》，一个是《江湖百晓生》。

这两个例子其实是为它量身定制的！

第一个是为了测试它和 DeepSeek 的差距，结果页面出错，直接被吊打！

第二个，也就是今天这个，是为了消耗它的 16 亿 Tokens 而设计的。最后 Tokens 是消耗了不少，但是结果非常不理想。

在我二次要求下，终于补全了大量数据。总共消耗了 16 亿中的 4%！

但是页面问题，还是不好解决。

我本来想让它改一下的，但是不知道为什么，提示我模型不存在了！前面几轮对话都正常的。这个需求提出来之后，突然就说模型不存在了。

我开了一个全新的对话，一样的配置又是可以的！我看同一个对话的 Recap 也正常的！可能是又遇到啥 BUG 了，算了，不改了！

说实话，第一个版本如果出来就没法看，我就不想改了，改的意义也不大。

所以我的感觉是，小米这个大模型"新秀"，底蕴还是差了些，只是做了一些表面功夫。有些特定领域优化到中档水平，但是非常不全面，很容易遇到瓶颈，所以这个模型不适合深入使用，只能做一些通用的，基础的。

同样的问题我测试了很多模型，大家可以自行对比感受！

《Gemini3.5Flash 的江湖百晓生》

《Claude Opus4.7的江湖百晓生》