Minimax直接对标Opus 4.6了, 实力还是吹牛逼?

把年前没写完的文章续上!

上市公司就是牛啊,只要能把股价干上去,干啥都可以。

感觉都不用过年的,拼命更新,拼命发新闻稿!

GLM5 还没捂热,MiniMax M2.5 又来了。

当时的新闻稿是这样的:

这么一看,GLM5 还是低调了,MiniMax 直接就对标 Claude Opus 4.6 了!

另外,我还看到一个数据。

在大模型 API 调用平台上,MiniMax 凭借一周 3T 的 token 使用量,拿下了第一名。这个榜单中前三名全部是中国公司,分别是 MiniMax、Kimi、GLM。既然如此,我们应该认真对待一下国产 AI 模型了。

MiniMax官网也推出了 Coding Plan 套餐:

bash 复制代码
https://platform.minimaxi.com/subscribe/coding-plan?code=cps3nv7Ojk&source=link

Ultra 极速版价格居然高达 8990 元,我已经有种高攀不起的感觉了。我只能在六个套餐中选个最低档的 Starter,开了个290 元的年会员。居然敢卖这么贵。我是越来越好奇它到底有多强了!

无论是从官方的公告,还是首屏的介绍,以及新闻的标题,都可以看出来,目前主战场都聚焦到了编程和智能体两个领域。 之所以会这样,是因为 Claude 打了一个样。Claude Code 和 Cowork 这些产品做非常好,反响也很好,把这条路给走通了。所以大家一拥而上,全部在对标 Claude。

MiniMax 已经喊出了:"编码和智能体领域 SOTA,专为智能体宇宙而设计",这已经给人屌炸天的感觉了!

那么事实到底如何? 这屌炸天的口号中,实力占几分,营销占几分?

作为一个程序员或者技术人员,最关注的从来不宣传,而是"事实"。

前两天,在对比 GLM5 和 Claude 4.6 的时候,正好测了一些有意思的例子。今天也给 MiniMax M2.5 试试,横向对比下 GLM5、Claude4.6,大家心里就会有点数了。

下面就直接上例子了。

无限流冒险游戏

提示词:

markdown 复制代码
请瞬间化身为一个复古文字冒险游戏引擎。用户输入"开始",你需生成一个随机主题(如"火星殖民地生存"或"古代修仙")。 
​
**娱乐要求:**
​
1. 每一步选择都要实时生成一张**ASCII艺术插图**(用字符拼成的画)来渲染场景氛围,不能重复。
2. 游戏必须包含隐藏的"蝴蝶效应"逻辑,如果用户在第 3 步选择了"捡起石头",在第 10 步遇到怪兽时必须体现出这个选择的后果。
3. 若用户输入无理取闹的指令(如"我一拳打爆地球"),你需要用幽默的方式拒绝并引导回剧情,不能报错。 
​
**考验实力:** 考察**即时状态管理**、**叙事创意**以及**逻辑连贯性**。这是智能体 Agent 能力的绝佳试金石,好不好玩一目了然。

Claude 4.6:

M2.5:

单看 UI 都没啥大问题,整体界面设计的都不错。Claude 用终端的方式来展现 ASCII 艺术插图和复古是非常贴切的,而 MiniMax 采用了比较现代化的设计。

当然点击开始冒险之后,问题来了:

MiniMax 写的代码居然有错误,而且是非常低级的错误。大量的字符串错误,包括单引号错误,拼接错误。

因为我秉承只抽测一次的原则,所以功能部分就没法比较了。Claude 的功能是完全正常可用的。

AI 五子棋对战

提示词:

diff 复制代码
用一个 HTML 文件实现一个人机五子棋,要求:
- 棋盘是15×15标准棋盘,有木纹质感
- AI要足够聪明(至少能识破简单的活三、冲四,不能让人3步就赢)
- 落子时有动画效果(石子从上方落下,有弹跳回弹)
- 连成五子时有华丽的胜利特效(粒子烟花 + 连线高亮闪烁)
- 支持悔棋功能
- 有一个"AI思考中"的加载动画
- 整体UI要精致,不能是毛坯房风格

Claude 4.6:

M2.5:

整体来说,两个模型都把功能给做出了,界面设计上也不分伯仲。我比较喜欢 Claude 的棋盘,和 MiniMax 的按钮。对战逻辑上也都没有大问题。

但是 MiniMax 有一个特别明显的问题,棋子特别小,棋盘的线条也是不对的,棋子和棋盘是错位的。 其实它脑子中有一个正确的定位,但是界面呈现却是完全错位的。

赛博朋克版清明上河

要求如下:

markdown 复制代码
​
请不要直接画图,而是编写一段 单个 HTML 文件 的代码,当我用浏览器打开它时,能看到一幅动态的、赛博朋克风格的《清明上河图》长卷。 
​
​
华丽要求:
​
1. 画面需要自动从右向左缓缓滚动。
2. 必须包含至少 50 个动态元素:如闪烁的霓虹灯招牌、飞行的汽车、全息投影的广告、街头的机械义肢行人。
3. 鼠标悬停在任意店铺上时,要弹出一个赛博风格的信息卡片(如"老王义体维修店 - 好评率 98%")。 
​
考验实力:
​
这要求模型具备极强的 SVG/Canvas 绘图编程能力、CSS 动画逻辑以及审美设计能力。普通人只需打开网页就能直观判断谁做得更精美、更流畅。

Claude 4.6:

M2.5:

两个模型都成功把网页做出了,M2.5 的画面非常鲜艳,Claude 4.6 的有点精致。Claude 右上角显示了时间,正下方有一个滚动的进度条,右下角有一个暂停和倍数调整,看起来更加完善。

中国山水画

提示词:

css 复制代码
用纯 CSS(单个 HTML 文件,不允许用 JavaScript、SVG、Canvas、任何图片资源)
画一幅中国山水画。要求包含:远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、
飞鸟。越写意越好,越像水墨越强。

Claude 4.6:

M2.5:

Claude 4.6 的中国画朦胧意境非常不错,还配了诗词和印章,用了大量的圆弧和曲线,看起来非常柔和。

M2.5 很明显圆弧没画好,树已经枯死了,鸟已经变异了。其实该有的都有,但是整体看起来不是太好。

诗词版黑客帝国代码雨

diff 复制代码
用一个 HTML 文件实现黑客帝国经典代码雨效果,但有以下创意要求:
- 下落的不是随机字符,而是中国古诗词(每列是一首完整的诗,从上往下逐字飘落)
- 背景纯黑,文字渐变色(从亮绿到暗绿到消失)
- 当鼠标划过某一列时,该列暂停并高亮显示完整诗句,旁边浮现诗人名和朝代
- 至少包含20首不同的古诗
- 整体流畅度要高,不能卡顿

Claude 4.6:

M2.5:

Claude 4.6 做的非常完整,可以比对所有需求,没有任何问题。M2.5 前十秒一片黑,以为坏掉了,十秒之后终于出现内容了。

另外他的代码雨基本上看不清是什么字,还插入了乱码,这种深浅混乱的感觉,其实视觉效果还不错,但是他明显没有很好的遵循指令。

我测了好多的例子,有一些表现中规中矩,就不贴了。

从我的测试来看:

Claude 的发挥是非常稳定的,基本上一次过,而且效果很不错。它不单单是逻辑上没有 bug,而且对场景的理解也非常到位,另外一点就是它有一定的审美能力,不仅仅是把功能完成,而是会做的比较美观,这一点在模拟时钟的测试中也可以有直观的感受。

MiniMax 的话,表现不是太稳定,时而还可以,时而会出现一些错误。指令遵循没有特别到位,审美啥的还不存在的。可能是我测试的这些例子他们还没有做针对性的优化训练,所以表现并不是太好。

另外最近 GLM5,doubao 2.0 也更新了,我也做了横向对比。有兴趣的可以看一下:

网址:topai.tonyhub.xyz/

针对最近更新的几个模型,设计了 9 个题目,每个题目都有特定的考点,既保持了娱乐性,又保证了专业性。这些题目应该还没被大模型做特定的优化训练,所以还比较有参考意义。

很多例子都涉及到了动效和交互,在网页上查看,对比效果会更加明显,优缺点也会更加明显。

我几乎开通了所有顶级模型厂商的 Coding Plan,接下来会做各种测试,核心目标就是找出真正有用的模型,以及不同模型的特长。有兴趣的可以关注一下!

接了来会测试一下Gemini3.1 pro ,然后会对所有模型做一个智能体的综合测试!

相关推荐
甲枫叶15 小时前
【claude】Claude Code正式引入Git Worktree原生支持:Agent全面实现并行独立工作
java·人工智能·git·python·ai编程
AI袋鼠帝19 小时前
豆包2.0来了!中国版Trae免费用~
人工智能·ai编程·豆包marscode
Lxinccode19 小时前
AI编程(3) / claude code[3] : 更新apiKey
java·数据库·ai编程·claude code
AI袋鼠帝19 小时前
我宣布:今年春节的年味,交给秒哒了!
aigc·ai编程
AI袋鼠帝20 小时前
智谱GLM-5这次开源,让高级程序员也危险了...
aigc·ai编程·chatglm (智谱)
沐风___21 小时前
我每周至少写四五篇文章,但真正花在"写"上的时间越来越少
ai编程
sg_knight1 天前
Claude Code 的账号、模型与使用限制说明
ai·大模型·llm·ai编程·claude·code·claude-code
YZ0991 天前
Sora2 AI视频去水印接口
人工智能·音视频·api·ai编程