这两天,中国 AI 行业关注的核心无疑是 MiniMax。
12 月 21 日,MiniMax(稀宇科技)正式向港交所递交招股书,披露的一连串数字瞬间引爆了舆论场:账上坐拥超 10 亿美元的现金储备,2025 年前九个月营收同比激增 174.7%,而在保持高强度研发的同时,经调整净亏损控制在 1.86 亿美元。
资本市场的喧嚣还没结束,23 日,MiniMax 又反手甩出了一张技术牌:正式上线 MiniMax M2.1 模型。

这并非一次常规的版本迭代。根据官方披露的信息,M2.1 在 SWE-bench Multilingual 多语言评测中以 72.5% 的成绩拿下了 SOTA,超越了 Gemini 3 Pro 和 Claude Sonnet 4.5。

更重要的是,它不再局限于 Python 或前端代码的生成,而是向 Rust、Java、C++ 等更广泛的后端语言发起了进攻,试图解决过往模型「写得像但跑不通」、「缺乏工程感」的痛点。
同时,M2.1 大幅强化了原生 Android 和 iOS 的开发能力,打出了「Not only vibe WebDev, but also vibe AppDev」的口号。
不仅如此,为了给这种「从零到一」的全栈能力提供硬核支撑,MiniMax 还构建并开源了全新基准 VIBE(Visual & Interactive Benchmark for Execution in Application Development)。不同于传统基准,VIBE 涵盖了 Web、仿真、Android、iOS 及后端五大核心子集,并引入创新的 Agent-as-a-Verifier (AaaV) 范式,能够自动评估生成的 Application 在真实运行环境中的交互逻辑与视觉美感。在这场「全栈构建」的终极测试中,M2.1 以平均 88.6 分的成绩展现了卓越实力,不仅在几乎所有子集上显著优于 Claude Sonnet 4.5,更逼近了 Claude Opus 4.5 的水准。

同时,凭借强大的交错思维与指令跟随能力,MiniMax M2.1 还能集成「复合指令约束」,从而可以更轻松地完成办公自动化任务。
更令开发者惊喜的是其落地的速度与广度:M2.1 第一时间就可无缝集成至 Claude Code、Cursor 等主流 AI 编程工具中。
配合更快的响应速度、更简洁的思维链以及大幅降低的 token 消耗,它显然是有备而来,意在直接切入开发者的核心工作流。
这种「今天秀肌肉,明天亮技术」的节奏显然不是巧合。在外界还在争论一家成立刚四年的公司为何能跑出如此惊人的 IPO 速度时,MiniMax M2.1 的发布则是一种有力的回应:它试图用模型的迭代速度,来诠释招股书里高效研发的数字指标,以及为何这家公司值得众多明星投资人的信任与多轮投资。

作为一家长期关注 AI 技术的媒体,在这一波喧嚣过后的 48 小时里,我们拿到 M2.1 的接口,把它扔进了开发环境中,用真实的任务对其进行了考验。
毕竟,招股书是给投资人看的面子,而模型能力才是开发者真金白银投票的里子。这份体验报告或可成为洞见这家公司真实技术底蕴的切口。
实测:从偏科到全能
在过去很长一段时间里,MiniMax 给开发者的印象往往带着鲜明的标签:它的语音合成极其逼真,视频生成的表现力备受赞誉(海螺),角色扮演能力也在 C 端应用(如星野)中大放异彩。如果说大模型班级里有特长生,那么 MiniMax 以前更像是一个极具天赋的文科生或艺术生。
然而,要支撑起招股书中描绘的 AGI 蓝图,光有情商可不够。在企业级应用和复杂的生产力场景中,推理能力和模型使用工具的能力才是检验模型智商的硬通货。此前,必须承认的是,作为开源模型,M2 与 Claude Sonnet 4.5 或 GPT-5 (thinking) 等国际顶尖模型相比,在部分任务上确实还差点意思。
这也正是 M2.1 发布的战略意义所在:一次针对性的进化。
为了验证 M2.1 是否真的补齐了编程这块短板,我们决定跳过那些基础的「写首藏头诗」或「画个贪吃蛇」,直接将它置于真实的开发者视角下,以了解其在代码重构、复杂逻辑规划等方面的真实表现。
首先来一个相对简单的任务:虾仁模拟器,看看我们能否在自己的电脑上扮演这位历经无数世界的穿越者。首先,构建一个简单的提示词:
我想构建一个虾仁模拟器小游戏,核心主题是:你是虾仁,你又穿越了。游戏内容是主角虾仁穿越到不同的朝代或者世界(比如丧尸世界、修仙世界、赛博世界),游戏后台使用 AI: MiniMax-M2.1。请先规划这个项目,让我选择游戏方式和技术栈等,并将任务规划放入 task.md 文件。
在 Claude Code 配置好 MiniMax M2.1 之后,直接输入提示词开始构建!
4 倍速视频(以下视频都是 4 倍速)
整个过程耗时不到 6 分钟。给这个小游戏配置好 API,来初步试试效果:
命令行的界面玩起来总归是不方便,也不美丽,接下来我们继续推进,让 MiniMax M2.1 开发一个直观好看的 UI。
给这个游戏开发一个漂亮的网页 UI,整体使用像素风格,使用莫兰迪色系配色。使用 JavaScript。支持深色和浅色模式切换。界面上加一个随机穿越的按钮。
这下,效果好多了。MiniMax M2.1 的审美着实在线!
你甚至能一句话就创建出一个炫酷的个人主页:
MiniMax M2.1 为漫威超级英雄黑寡妇创建的个人主页
接下来,我们大幅提升任务难题,来考验一下 MiniMax M2.1 的多语言编程能力。我们构想一个较为复杂的任务,并在 AI 的辅助下撰写了一个提示词:

然后我们将其放入任务文件夹的「任务.md」文件中,直接给出执行指令:
读取文件夹中的任务.md 文件并实现这个项目。
这个任务的难度较大,MiniMax M2.1 并没有一蹴而就,但整个过程非常接近真实的开发体验。在与其进行多轮互动后,它最终交出了一份令人满意的答卷。
值得一提的是,在这个过程中我们遇到了多次报错,例如 crates.io 镜像源问题导致无法下载组件、Go 语言中 % 运算符不能用于 float64 而需改用 math.Mod () 函数等。
令人惊喜的是,这些问题并没有成为阻碍。我们只需将报错信息直接反馈给 MiniMax M2.1,它就能迅速理解上下文,自动完成修复工作,并编写了各个模块的单元测试。
最后,我们继续让 MiniMax M2.1 将这三个使用不同语言编写的模块连接了起来。

最终,我们得到了这样一个系统:
左侧为 React 前端,右上为 Go 语言写的网关,右下为 Rust 写的核心程序
我们还进行了其它一些实测,包括将多年前的 C++ 游戏库重构为 Python 版本、修改了一个 Obsidian 插件、一个辅助发推文的小工具以及一个「技能吃豆人」小游戏。
技能吃豆人增加了技能豆,吃下后可以获得技能,比如这里的穿墙能力
这些实测证明,MiniMax M2.1 不仅能写代码,更能像一个成熟的工程师一样解决问题。
技术与商业的互文
当我们把视线从 IDE 编辑器的代码窗口移开,重新审视那份数百页的招股书时,会发现 M2.1 的发布其实是解读 MiniMax 商业逻辑的一把关键钥匙。
在外界看来,或许招股书是财务数字的游戏,而模型发布是技术圈的狂欢。但在 MiniMax 这里,两者构成了紧密的互文关系。
研发杠杆率:打破「烧钱换增长」的魔咒
招股书中有一个容易被忽视但极具含金量的数据对比:2025 年前九个月,MiniMax 的营收同比增长了 174.7%,但同期研发费用仅增长了约 30%。

这个显著的「剪刀差」修正了外界对于大模型公司「研发无底洞」的刻板印象。它揭示了一个关键事实:MiniMax 已经跑通了高效的研发模式。
这意味着,公司不再需要线性地堆砌人力和算力资源来换取模型能力的提升。M2.1 的诞生就是最好的佐证:在研发投入增速远低于营收增速的前提下,MiniMax 依然保持了极高的迭代频率,在短时间内填补了代码和逻辑推理的短板。对于二级市场投资者而言,这种不随营收规模同比例膨胀的研发成本结构,是验证其商业模式可扩展性(Scalability)的最强证据。
从聊天机器人到智能体:MiniMax 的生产力雄心
MiniMax 在招股书中强调了其在 C 端应用(如星野、海螺 AI)上的统治力。然而,要撑起千亿级的市场想象空间,仅靠聊天是不够的。M2.1 补齐逻辑和代码短板,真正的雄心在于对 B 端生产力场景的渗透。
行业内对于 Agent 能力的评估标准,正在从简单的对话测试转向更为严苛的基准,例如 Toolathon。这是一个包含 32 个专业软件(如 Kubernetes、BigQuery)、600 多个工具的第三方高难度评测,要求模型在平均 20 轮的交互中完成复杂的长程任务。
M2.1 对代码解释器和工具调用能力的强化,正是为了应对这种真实世界复杂度。当一个模型能够熟练操作 Docker 容器、管理日历并自动处理电商订单时,它就从一个 C 端的玩具进化成了 B 端的员工。这种能力的跃升,将直接拓宽 MiniMax 开放平台的客户半径,使其能够承接企业级工作流的自动化需求。
商业闭环的最后一公里
至此,MiniMax 的商业逻辑形成了闭环:
-
C 端产品(星野、海螺)作为数据飞轮和现金牛,提供高用户粘性和直接收入;
-
底层模型(M2.1)通过 MoE 架构控制推理成本,通过技术补全提升智商上限;
-
开放平台基于 M2.1 的 Agent 和多模态能力,切入高价值的企业级市场。
现在的 MiniMax 已左手是资本市场的入场券(招股书),右手是技术战场的冲锋号(M2.1)。
对该公司而言,IPO 是通过技术转化为生产力的新起点。M2.1 的发布证明了,这家公司在叩响港交所大门的同时,依然保持着对技术边界的极致探索。这种「左手账本,右手模型」的双轮驱动,或许正是它能在短短四年内跑通商业闭环的秘密所在。