实测MiniMax M2.1之后,我们终于看懂了其招股书里的技术底气

这两天,中国 AI 行业关注的核心无疑是 MiniMax。

12 月 21 日,MiniMax(稀宇科技)正式向港交所递交招股书,披露的一连串数字瞬间引爆了舆论场:账上坐拥超 10 亿美元的现金储备,2025 年前九个月营收同比激增 174.7%,而在保持高强度研发的同时,经调整净亏损控制在 1.86 亿美元。

资本市场的喧嚣还没结束,23 日,MiniMax 又反手甩出了一张技术牌:正式上线 MiniMax M2.1 模型。

这并非一次常规的版本迭代。根据官方披露的信息,M2.1 在 SWE-bench Multilingual 多语言评测中以 72.5% 的成绩拿下了 SOTA,超越了 Gemini 3 Pro 和 Claude Sonnet 4.5。

更重要的是,它不再局限于 Python 或前端代码的生成,而是向 Rust、Java、C++ 等更广泛的后端语言发起了进攻,试图解决过往模型「写得像但跑不通」、「缺乏工程感」的痛点。

同时,M2.1 大幅强化了原生 Android 和 iOS 的开发能力,打出了「Not only vibe WebDev, but also vibe AppDev」的口号。

不仅如此,为了给这种「从零到一」的全栈能力提供硬核支撑,MiniMax 还构建并开源了全新基准 VIBE(Visual & Interactive Benchmark for Execution in Application Development)。不同于传统基准,VIBE 涵盖了 Web、仿真、Android、iOS 及后端五大核心子集,并引入创新的 Agent-as-a-Verifier (AaaV) 范式,能够自动评估生成的 Application 在真实运行环境中的交互逻辑与视觉美感。在这场「全栈构建」的终极测试中,M2.1 以平均 88.6 分的成绩展现了卓越实力,不仅在几乎所有子集上显著优于 Claude Sonnet 4.5,更逼近了 Claude Opus 4.5 的水准。

同时,凭借强大的交错思维与指令跟随能力,MiniMax M2.1 还能集成「复合指令约束」,从而可以更轻松地完成办公自动化任务。

更令开发者惊喜的是其落地的速度与广度:M2.1 第一时间就可无缝集成至 Claude Code、Cursor 等主流 AI 编程工具中。

配合更快的响应速度、更简洁的思维链以及大幅降低的 token 消耗,它显然是有备而来,意在直接切入开发者的核心工作流。

这种「今天秀肌肉,明天亮技术」的节奏显然不是巧合。在外界还在争论一家成立刚四年的公司为何能跑出如此惊人的 IPO 速度时,MiniMax M2.1 的发布则是一种有力的回应:它试图用模型的迭代速度,来诠释招股书里高效研发的数字指标,以及为何这家公司值得众多明星投资人的信任与多轮投资。

作为一家长期关注 AI 技术的媒体,在这一波喧嚣过后的 48 小时里,我们拿到 M2.1 的接口,把它扔进了开发环境中,用真实的任务对其进行了考验。

毕竟,招股书是给投资人看的面子,而模型能力才是开发者真金白银投票的里子。这份体验报告或可成为洞见这家公司真实技术底蕴的切口。

实测:从偏科到全能

在过去很长一段时间里,MiniMax 给开发者的印象往往带着鲜明的标签:它的语音合成极其逼真,视频生成的表现力备受赞誉(海螺),角色扮演能力也在 C 端应用(如星野)中大放异彩。如果说大模型班级里有特长生,那么 MiniMax 以前更像是一个极具天赋的文科生或艺术生。

然而,要支撑起招股书中描绘的 AGI 蓝图,光有情商可不够。在企业级应用和复杂的生产力场景中,推理能力和模型使用工具的能力才是检验模型智商的硬通货。此前,必须承认的是,作为开源模型,M2 与 Claude Sonnet 4.5 或 GPT-5 (thinking) 等国际顶尖模型相比,在部分任务上确实还差点意思。

这也正是 M2.1 发布的战略意义所在:一次针对性的进化。

为了验证 M2.1 是否真的补齐了编程这块短板,我们决定跳过那些基础的「写首藏头诗」或「画个贪吃蛇」,直接将它置于真实的开发者视角下,以了解其在代码重构、复杂逻辑规划等方面的真实表现。

首先来一个相对简单的任务:虾仁模拟器,看看我们能否在自己的电脑上扮演这位历经无数世界的穿越者。首先,构建一个简单的提示词:

我想构建一个虾仁模拟器小游戏,核心主题是:你是虾仁,你又穿越了。游戏内容是主角虾仁穿越到不同的朝代或者世界(比如丧尸世界、修仙世界、赛博世界),游戏后台使用 AI: MiniMax-M2.1。请先规划这个项目,让我选择游戏方式和技术栈等,并将任务规划放入 task.md 文件。

在 Claude Code 配置好 MiniMax M2.1 之后,直接输入提示词开始构建!

4 倍速视频(以下视频都是 4 倍速)

整个过程耗时不到 6 分钟。给这个小游戏配置好 API,来初步试试效果:

命令行的界面玩起来总归是不方便,也不美丽,接下来我们继续推进,让 MiniMax M2.1 开发一个直观好看的 UI。

给这个游戏开发一个漂亮的网页 UI,整体使用像素风格,使用莫兰迪色系配色。使用 JavaScript。支持深色和浅色模式切换。界面上加一个随机穿越的按钮。

这下,效果好多了。MiniMax M2.1 的审美着实在线!

你甚至能一句话就创建出一个炫酷的个人主页:

MiniMax M2.1 为漫威超级英雄黑寡妇创建的个人主页

接下来,我们大幅提升任务难题,来考验一下 MiniMax M2.1 的多语言编程能力。我们构想一个较为复杂的任务,并在 AI 的辅助下撰写了一个提示词:

然后我们将其放入任务文件夹的「任务.md」文件中,直接给出执行指令:

读取文件夹中的任务.md 文件并实现这个项目。

这个任务的难度较大,MiniMax M2.1 并没有一蹴而就,但整个过程非常接近真实的开发体验。在与其进行多轮互动后,它最终交出了一份令人满意的答卷。

值得一提的是,在这个过程中我们遇到了多次报错,例如 crates.io 镜像源问题导致无法下载组件、Go 语言中 % 运算符不能用于 float64 而需改用 math.Mod () 函数等。

令人惊喜的是,这些问题并没有成为阻碍。我们只需将报错信息直接反馈给 MiniMax M2.1,它就能迅速理解上下文,自动完成修复工作,并编写了各个模块的单元测试。

最后,我们继续让 MiniMax M2.1 将这三个使用不同语言编写的模块连接了起来。

最终,我们得到了这样一个系统:

左侧为 React 前端,右上为 Go 语言写的网关,右下为 Rust 写的核心程序

我们还进行了其它一些实测,包括将多年前的 C++ 游戏库重构为 Python 版本、修改了一个 Obsidian 插件、一个辅助发推文的小工具以及一个「技能吃豆人」小游戏。

技能吃豆人增加了技能豆,吃下后可以获得技能,比如这里的穿墙能力

这些实测证明,MiniMax M2.1 不仅能写代码,更能像一个成熟的工程师一样解决问题。

技术与商业的互文

当我们把视线从 IDE 编辑器的代码窗口移开,重新审视那份数百页的招股书时,会发现 M2.1 的发布其实是解读 MiniMax 商业逻辑的一把关键钥匙。

在外界看来,或许招股书是财务数字的游戏,而模型发布是技术圈的狂欢。但在 MiniMax 这里,两者构成了紧密的互文关系。

研发杠杆率:打破「烧钱换增长」的魔咒

招股书中有一个容易被忽视但极具含金量的数据对比:2025 年前九个月,MiniMax 的营收同比增长了 174.7%,但同期研发费用仅增长了约 30%。

这个显著的「剪刀差」修正了外界对于大模型公司「研发无底洞」的刻板印象。它揭示了一个关键事实:MiniMax 已经跑通了高效的研发模式。

这意味着,公司不再需要线性地堆砌人力和算力资源来换取模型能力的提升。M2.1 的诞生就是最好的佐证:在研发投入增速远低于营收增速的前提下,MiniMax 依然保持了极高的迭代频率,在短时间内填补了代码和逻辑推理的短板。对于二级市场投资者而言,这种不随营收规模同比例膨胀的研发成本结构,是验证其商业模式可扩展性(Scalability)的最强证据。

从聊天机器人到智能体:MiniMax 的生产力雄心

MiniMax 在招股书中强调了其在 C 端应用(如星野、海螺 AI)上的统治力。然而,要撑起千亿级的市场想象空间,仅靠聊天是不够的。M2.1 补齐逻辑和代码短板,真正的雄心在于对 B 端生产力场景的渗透。

行业内对于 Agent 能力的评估标准,正在从简单的对话测试转向更为严苛的基准,例如 Toolathon。这是一个包含 32 个专业软件(如 Kubernetes、BigQuery)、600 多个工具的第三方高难度评测,要求模型在平均 20 轮的交互中完成复杂的长程任务。

M2.1 对代码解释器和工具调用能力的强化,正是为了应对这种真实世界复杂度。当一个模型能够熟练操作 Docker 容器、管理日历并自动处理电商订单时,它就从一个 C 端的玩具进化成了 B 端的员工。这种能力的跃升,将直接拓宽 MiniMax 开放平台的客户半径,使其能够承接企业级工作流的自动化需求。

商业闭环的最后一公里

至此,MiniMax 的商业逻辑形成了闭环:

  • C 端产品(星野、海螺)作为数据飞轮和现金牛,提供高用户粘性和直接收入;

  • 底层模型(M2.1)通过 MoE 架构控制推理成本,通过技术补全提升智商上限;

  • 开放平台基于 M2.1 的 Agent 和多模态能力,切入高价值的企业级市场。

现在的 MiniMax 已左手是资本市场的入场券(招股书),右手是技术战场的冲锋号(M2.1)。

对该公司而言,IPO 是通过技术转化为生产力的新起点。M2.1 的发布证明了,这家公司在叩响港交所大门的同时,依然保持着对技术边界的极致探索。这种「左手账本,右手模型」的双轮驱动,或许正是它能在短短四年内跑通商业闭环的秘密所在。

相关推荐
天一生水water2 小时前
nano banana pro绘图示例
人工智能·智慧油田
AI小怪兽2 小时前
YOLO11-4K:面向4K全景图像实时小目标检测的高效架构
人工智能·目标检测·计算机视觉·目标跟踪·架构
CICI131414132 小时前
焊接机器人负载能力选择标准
网络·数据库·人工智能
阿_旭2 小时前
【PyTorch】20个核心概念详解:从基础到实战的深度学习指南
人工智能·pytorch·深度学习
Guheyunyi2 小时前
视频安全监测系统的三大核心突破
大数据·运维·服务器·人工智能·安全·音视频
石像鬼₧魂石2 小时前
HexStrike AI 理想操作流程清单(完整功能版)
linux·人工智能·windows·学习·ubuntu
阿里云大数据AI技术2 小时前
【NeurIPS2025】阿里云PAI团队动态数据调度方案Skrull 入选
人工智能
硬汉嵌入式2 小时前
VisualGDB 6.1 Beta5版本,正式引入全新的高速AI编辑引擎,专为C/C++项目量身打造
人工智能·visualgdb
乾元2 小时前
AI 驱动的入侵检测与异常会话判别:从规则到行为分析前言:从“捕获敌人”到“守卫秩序”
运维·网络·人工智能·网络协议·安全