MiMo2.5Pro《江湖百晓生》测试过程和结果!

MiMo 的 16 亿 Tokens 快到期了,紧急加测了一波。然后......彻底拉了,虎头蛇尾,虚有其表!

先给你们看张图吧:

就这个网页消耗了 16 亿中的 4%,大概是 6400 万!

同样的题目,Opus4.7 和 Gemini3.5 真的完全是吊打它!

下面是 Opus4.7 做的效果:

下面是 Gemini3.5 做的效果:

结果展示完了,我们来看一下细节。

这是 AI 实战开发测试《江湖百晓生》的第二篇!

我们的主题是:开发一个以金庸古龙为主题的武侠百科,要包含主要人物、兵器、武功等等内容。

下面我会把开发工具、开发过程给大家展现一下,深入体验一下 MiMo 在实战中的表现。

开发工具

我现在基本上不用 CCSwitch 了,我都是用自己的 JCode + Claude Code!

配置好之后,只要打开 JCode,直接双击图标启动 CC 就可以:

不需要直接去终端输入 Claude,也不需要 cd 到指定路径,也不需要直接配置环境变量、修改配置文件。

只要通过软件的添加功能:

添加 API key 和写上正确的 Base URL 即可!

我其实内置了小米的 base URL,但是由于小米的默认接入点和 Token Plan 的接入点不一样。所以如果要用 Token Plan 的套餐,就需要按截图中调整。如果是默认充多少用多少的 API,就不需要修改了。

配置完成之后,以后就不用管了。

直接双击图标启动,选择一个文件夹,就能开干了!

开发过程

为 MiMo 创建独立的测试文件夹。

然后通过 JCode 快速启动 CC。这个时候就可以在 CC 调用 MiMo 的 Token Plan 了。

然后,只要把我们的需求告诉它就可以了。这个需求和测试 Gemini3.5 Flash 的是一模一样的。

核心需求:

我想要做一个'江湖百晓生'的网站。主要是收集金庸古龙的武侠小说,首先也要找到所有的小说,然后是整理其中的人物、兵器、场景、武功招式。你可以凭记忆完成,也可以去网上收集所有资料,需要存档,然后制作武侠风格的网页,用极具特色的方式组织展现这些内容!这是一个庞大的任务,请做好计划,并且打算运行很长时间。需要保证数据的准确,不要偷懒!"

然后把这个需求一粘贴,一个回车,就开始干活了:

小米MiMo刚开始这个架势还是很不错的。

首先说了句"这是一个庞大的任务,我先了解情况,然后制定详细计划"。

然后就是开始让我选技术栈了。

首推是 HTML/CSS/JS 路线,因为我测 Gemini 的时候选了 React,所以这里也选这个!

这里给的四种方案还是比较全面的,基本上就是这几种了。

然后进入下一步:

第二步是展现风格,看起来非常不错哦!

复制代码
1.古风巻轴/竹简
模拟古代卷轴展开效果,翻页阅读
​
2.江湖地图门派分布
以地图形式展现门派、人物关系
​
3.武侠卡片/图鉴
类似游戏图鉴,卡片式收集展示
​
4.综合门户/百科全书
类似维基百科的结构化知识库

这候选项超预期啊,都考虑到这么多风格了,我都不知道选哪个好呢。那我就选默认的"古风卷轴"吧!

继续进入下一步:

这一步是数据深度。

这里提供了 3 个选项。我希望数据多一点,我本来就是来消耗 Tokens 的。

所以我就选了"3.尽量全面"!

继续下一步:

这一步是执行方式,可以选择先看计划,或者直接开始,或者分阶段开始。

我自然是先看计划!

全部选完之后,就进入计划环节了。

我看了一下具体计划内容:

看这计划做得挺好的,挺详细的!

既然它都做得这么详细了,我就不提供任何意见了。直接让它按计划完成!

到目前为止,我感觉他都很厉害阿啊!这个ask和Plan环节非常专业啊!

然后...一顿操作猛如虎,结果:

就生成了这样一个网页,布局完全是乱的,内外边距,间距,位置,全乱

看一个模型的前端能力和思考能力。第一个就是要看布局和构思。如果布局清晰,基本上就是业务逻辑整清楚了,然后前端技术也到位了。

这个前端肯定已经拉了,我没啥好说了。这种布局一旦出现,你要去让它调好,就会很难。因为它不理解这种空间感。

下面我们来看看数据:

我的要求是越全面越好,然后看了一下它的数据。

总共收录了21个人物、23部小说、10件兵器、13门功夫、10个门派。

这......一部小说里也不止这么多东西啊。

所以很显然,它在抓数据的时候偷懒了。

"AI 偷懒程度"其实也是一个重要的技术指标。

Claude 和 OpenAI 发布新模型都会强调,模型能独立运行几十个小时。其实他们要强调的不是时间长,而是能自主连续干活的时间长。

因为复杂的问题,就是需要消耗时间的。

现在他们都推出了 /goal 命令,可以设定一个可验证的目标,让模型自己长期循环跑到完成为止

MiMo给我的感觉是,做这个事情计划看起来很好,但是执行的时候比较拉跨,偷懒也比较明显。

Gemini3.5 Flash 在完成这个任务的时候,抓数据也偷懒了。

但是奈何人家前端优秀啊,秀到不行! 基本业务逻辑也整理的清清楚楚。

MiMo 刚上那一会儿,我用了好几个例子来测试,当时并没有测出大问题,好像表现也挺不错。

极有可能那些例子已经被优化训练了。

最近测了两个例子,表现非常拉跨。

一个是《掌门日记》,一个是《江湖百晓生》。

这两个例子其实是为它量身定制的!

第一个是为了测试它和 DeepSeek 的差距,结果页面出错,直接被吊打!

第二个,也就是今天这个,是为了消耗它的 16 亿 Tokens 而设计的。最后 Tokens 是消耗了不少,但是结果非常不理想。

在我二次要求下,终于补全了大量数据。总共消耗了 16 亿中的 4%!

但是页面问题,还是不好解决。

我本来想让它改一下的,但是不知道为什么,提示我模型不存在了!前面几轮对话都正常的。这个需求提出来之后,突然就说模型不存在了。

我开了一个全新的对话,一样的配置又是可以的!我看同一个对话的 Recap 也正常的! 可能是又遇到啥 BUG 了,算了,不改了!

说实话,第一个版本如果出来就没法看,我就不想改了,改的意义也不大。

所以我的感觉是,小米这个大模型"新秀",底蕴还是差了些,只是做了一些表面功夫。有些特定领域优化到中档水平,但是非常不全面,很容易遇到瓶颈,所以这个模型不适合深入使用,只能做一些通用的,基础的。

同样的问题我测试了很多模型,大家可以自行对比感受!

相关文章:

《Gemini3.5Flash 的江湖百晓生》

《Claude Opus4.7的江湖百晓生》

接下来好还有一个测试项目,测完之后,我就准备把MiMo挂起来了,目前对我而言无用!

相关推荐
小仙女的小稀罕14 小时前
适合企业行政整理会议录音,总结会议纪要推荐
人工智能
不爱洗脚的小滕14 小时前
【向量数据库】Milvus 稠密与稀疏向量核心解析
数据库·人工智能·milvus
翼龙云_cloud14 小时前
云服务器代理商:2026 年 OpenAI 智能体平台全解析 从 GPT-5.5 到 Enterprise Agent
大数据·人工智能·gpt·云计算·ai智能体
百家方案14 小时前
2026年AI+智慧教育全场景应用解决方案白皮书
人工智能·智慧教育·ai+智慧教育·智慧教育解决方案·教育智能化
ftpeak14 小时前
TorchEasyRec:阿里巴巴开源的推荐系统深度学习框架详解
人工智能·深度学习·ai·开源·ai编程·ai开发
Yunzenn14 小时前
深度分析字节最新研究cola-DLM第 06 章:分块因果 DiT 先验 —— 在隐空间里做 Flow Matching
人工智能·rnn·深度学习·神经网络·生成对抗网络·架构·transformer
comcoo14 小时前
OpenClaw 本地部署避坑指南|环境配置 + 故障排查全流程
运维·人工智能·openclaw安装包·open claw部署
云飞云共享云桌面14 小时前
企业降本增效新思路:SolidWorks共享部署实战经验分享
运维·服务器·网络·人工智能·3d·自动化
AI周红伟14 小时前
Windows 支持 Hermes Agent 吗:原生 Windows 安装 + WSL2 路径完整指南
数据库·人工智能·windows·阿里云·职场和发展·计算机外设