Minimax直接对标Opus 4.6了, 实力还是吹牛逼？

把年前没写完的文章续上！

上市公司就是牛啊，只要能把股价干上去，干啥都可以。

感觉都不用过年的，拼命更新，拼命发新闻稿！

GLM5 还没捂热，MiniMax M2.5 又来了。

当时的新闻稿是这样的：

这么一看，GLM5 还是低调了，MiniMax 直接就对标 Claude Opus 4.6 了！

另外，我还看到一个数据。

在大模型 API 调用平台上，MiniMax 凭借一周 3T 的 token 使用量，拿下了第一名。这个榜单中前三名全部是中国公司，分别是 MiniMax、Kimi、GLM。既然如此，我们应该认真对待一下国产 AI 模型了。

MiniMax官网也推出了 Coding Plan 套餐：

bash 复制代码

https://platform.minimaxi.com/subscribe/coding-plan?code=cps3nv7Ojk&source=link

Ultra 极速版价格居然高达 8990 元，我已经有种高攀不起的感觉了。我只能在六个套餐中选个最低档的 Starter，开了个290 元的年会员。居然敢卖这么贵。我是越来越好奇它到底有多强了！

无论是从官方的公告，还是首屏的介绍，以及新闻的标题，都可以看出来，目前主战场都聚焦到了编程和智能体两个领域。 之所以会这样，是因为 Claude 打了一个样。Claude Code 和 Cowork 这些产品做非常好，反响也很好，把这条路给走通了。所以大家一拥而上，全部在对标 Claude。

MiniMax 已经喊出了："编码和智能体领域 SOTA，专为智能体宇宙而设计"，这已经给人屌炸天的感觉了！

那么事实到底如何? 这屌炸天的口号中，实力占几分，营销占几分？

作为一个程序员或者技术人员，最关注的从来不宣传，而是"事实"。

前两天，在对比 GLM5 和 Claude 4.6 的时候，正好测了一些有意思的例子。今天也给 MiniMax M2.5 试试，横向对比下 GLM5、Claude4.6，大家心里就会有点数了。

下面就直接上例子了。

无限流冒险游戏

提示词：

markdown 复制代码

请瞬间化身为一个复古文字冒险游戏引擎。用户输入"开始"，你需生成一个随机主题（如"火星殖民地生存"或"古代修仙"）。 

**娱乐要求：**

1. 每一步选择都要实时生成一张**ASCII艺术插图**（用字符拼成的画）来渲染场景氛围，不能重复。
2. 游戏必须包含隐藏的"蝴蝶效应"逻辑，如果用户在第 3 步选择了"捡起石头"，在第 10 步遇到怪兽时必须体现出这个选择的后果。
3. 若用户输入无理取闹的指令（如"我一拳打爆地球"），你需要用幽默的方式拒绝并引导回剧情，不能报错。 

**考验实力：** 考察**即时状态管理**、**叙事创意**以及**逻辑连贯性**。这是智能体 Agent 能力的绝佳试金石，好不好玩一目了然。

Claude 4.6：

M2.5：

单看 UI 都没啥大问题，整体界面设计的都不错。Claude 用终端的方式来展现 ASCII 艺术插图和复古是非常贴切的，而 MiniMax 采用了比较现代化的设计。

当然点击开始冒险之后，问题来了：

MiniMax 写的代码居然有错误，而且是非常低级的错误。大量的字符串错误，包括单引号错误，拼接错误。

因为我秉承只抽测一次的原则，所以功能部分就没法比较了。Claude 的功能是完全正常可用的。

AI 五子棋对战

提示词：

diff 复制代码

用一个 HTML 文件实现一个人机五子棋，要求：
- 棋盘是15×15标准棋盘，有木纹质感
- AI要足够聪明（至少能识破简单的活三、冲四，不能让人3步就赢）
- 落子时有动画效果（石子从上方落下，有弹跳回弹）
- 连成五子时有华丽的胜利特效（粒子烟花 + 连线高亮闪烁）
- 支持悔棋功能
- 有一个"AI思考中"的加载动画
- 整体UI要精致，不能是毛坯房风格

Claude 4.6：

M2.5:

整体来说，两个模型都把功能给做出了，界面设计上也不分伯仲。我比较喜欢 Claude 的棋盘，和 MiniMax 的按钮。对战逻辑上也都没有大问题。

但是 MiniMax 有一个特别明显的问题，棋子特别小，棋盘的线条也是不对的，棋子和棋盘是错位的。其实它脑子中有一个正确的定位，但是界面呈现却是完全错位的。

赛博朋克版清明上河

要求如下：

markdown 复制代码


请不要直接画图，而是编写一段 单个 HTML 文件 的代码，当我用浏览器打开它时，能看到一幅动态的、赛博朋克风格的《清明上河图》长卷。 


华丽要求：

1. 画面需要自动从右向左缓缓滚动。
2. 必须包含至少 50 个动态元素：如闪烁的霓虹灯招牌、飞行的汽车、全息投影的广告、街头的机械义肢行人。
3. 鼠标悬停在任意店铺上时，要弹出一个赛博风格的信息卡片（如"老王义体维修店 - 好评率 98%"）。 

考验实力：

这要求模型具备极强的 SVG/Canvas 绘图编程能力、CSS 动画逻辑以及审美设计能力。普通人只需打开网页就能直观判断谁做得更精美、更流畅。

Claude 4.6:

M2.5:

两个模型都成功把网页做出了，M2.5 的画面非常鲜艳，Claude 4.6 的有点精致。Claude 右上角显示了时间，正下方有一个滚动的进度条，右下角有一个暂停和倍数调整，看起来更加完善。

中国山水画

提示词：

css 复制代码

用纯 CSS（单个 HTML 文件，不允许用 JavaScript、SVG、Canvas、任何图片资源）
画一幅中国山水画。要求包含：远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、
飞鸟。越写意越好，越像水墨越强。

Claude 4.6：

M2.5：

Claude 4.6 的中国画朦胧意境非常不错，还配了诗词和印章，用了大量的圆弧和曲线，看起来非常柔和。

M2.5 很明显圆弧没画好，树已经枯死了，鸟已经变异了。其实该有的都有，但是整体看起来不是太好。

诗词版黑客帝国代码雨

diff 复制代码

用一个 HTML 文件实现黑客帝国经典代码雨效果，但有以下创意要求：
- 下落的不是随机字符，而是中国古诗词（每列是一首完整的诗，从上往下逐字飘落）
- 背景纯黑，文字渐变色（从亮绿到暗绿到消失）
- 当鼠标划过某一列时，该列暂停并高亮显示完整诗句，旁边浮现诗人名和朝代
- 至少包含20首不同的古诗
- 整体流畅度要高，不能卡顿

Claude 4.6：

M2.5:

Claude 4.6 做的非常完整，可以比对所有需求，没有任何问题。M2.5 前十秒一片黑，以为坏掉了，十秒之后终于出现内容了。

另外他的代码雨基本上看不清是什么字，还插入了乱码，这种深浅混乱的感觉，其实视觉效果还不错，但是他明显没有很好的遵循指令。

我测了好多的例子，有一些表现中规中矩，就不贴了。

从我的测试来看：

Claude 的发挥是非常稳定的，基本上一次过，而且效果很不错。它不单单是逻辑上没有 bug，而且对场景的理解也非常到位，另外一点就是它有一定的审美能力，不仅仅是把功能完成，而是会做的比较美观，这一点在模拟时钟的测试中也可以有直观的感受。

MiniMax 的话，表现不是太稳定，时而还可以，时而会出现一些错误。指令遵循没有特别到位，审美啥的还不存在的。可能是我测试的这些例子他们还没有做针对性的优化训练，所以表现并不是太好。

另外最近 GLM5，doubao 2.0 也更新了，我也做了横向对比。有兴趣的可以看一下：

网址：topai.tonyhub.xyz/

针对最近更新的几个模型，设计了 9 个题目，每个题目都有特定的考点，既保持了娱乐性，又保证了专业性。这些题目应该还没被大模型做特定的优化训练，所以还比较有参考意义。

很多例子都涉及到了动效和交互，在网页上查看，对比效果会更加明显，优缺点也会更加明显。

我几乎开通了所有顶级模型厂商的 Coding Plan，接下来会做各种测试，核心目标就是找出真正有用的模型，以及不同模型的特长。有兴趣的可以关注一下！

接了来会测试一下Gemini3.1 pro ，然后会对所有模型做一个智能体的综合测试！