
认识MiniMax-M2
今天我们发布并开源MiniMax-M2------一个为极致 编码与智能体工作流打造的迷你模型。
MiniMax-M2重新定义了智能体的效率标准。这款紧凑、快速且经济高效的混合专家模型(总参数量2300亿,激活参数量100亿)专为编码和智能体任务打造精英级性能,同时保持强大的通用智能。仅需激活100亿参数,MiniMax-M2就能提供当前主流模型所具备的端到端复杂工具使用性能,但其精简架构使得部署和扩展变得前所未有的轻松。

亮点
卓越智能。根据Artificial Analysis的基准测试,MiniMax-M2在数学、科学、指令遵循、编码和智能体工具使用方面展现出极具竞争力的通用智能水平。其综合得分位列全球开源模型榜首。
先进编码。专为端到端开发者工作流设计,MiniMax-M2擅长多文件编辑、编码-运行-修复循环及测试验证的代码修正。在Terminal-Bench和(Multi-)SWE-Bench类任务中的出色表现,证明了其在终端、集成开发环境和跨语言持续集成中的实际效能。
智能体表现。MiniMax-M2能规划执行涉及终端、浏览器、检索系统和代码运行器的复杂长流程工具链。在BrowseComp类评估中,它始终能定位深层资源,保持可追溯的证据链,并能从容应对不稳定操作步骤。
高效设计。通过激活100亿参数(总参数2300亿),MiniMax-M2为交互式智能体和批量采样提供更低延迟、更低成本与更高吞吐------完美契合当前行业向高可部署模型转型的趋势,同时在编码和智能体任务中保持卓越表现。
编码与智能体基准测试
这套综合评估体系测试现实场景中的端到端编码与智能体工具使用:编辑真实代码库、执行命令、浏览网页并交付功能性解决方案。其测试表现与开发者日常在终端、IDE和CI中的体验高度相关。
| Benchmark | MiniMax-M2 | Claude Sonnet 4 | Claude Sonnet 4.5 | Gemini 2.5 Pro | GPT-5 (thinking) | GLM-4.6 | Kimi K2 0905 | DeepSeek-V3.2 |
|---|---|---|---|---|---|---|---|---|
| SWE-bench Verified | 69.4 | 72.7 * | 77.2 * | 63.8 * | 74.9 * | 68 * | 69.2 * | 67.8 * |
| Multi-SWE-Bench | 36.2 | 35.7 * | 44.3 | / | / | 30 | 33.5 | 30.6 |
| SWE-bench Multilingual | 56.5 | 56.9 * | 68 | / | / | 53.8 | 55.9 * | 57.9 * |
| Terminal-Bench | 46.3 | 36.4 * | 50 * | 25.3 * | 43.8 * | 40.5 * | 44.5 * | 37.7 * |
| ArtifactsBench | 66.8 | 57.3* | 61.5 | 57.7* | 73* | 59.8 | 54.2 | 55.8 |
| BrowseComp | 44 | 12.2 | 19.6 | 9.9 | 54.9* | 45.1* | 14.1 | 40.1* |
| BrowseComp-zh | 48.5 | 29.1 | 40.8 | 32.2 | 65 | 49.5 | 28.8 | 47.9* |
| GAIA (text only) | 75.7 | 68.3 | 71.2 | 60.2 | 76.4 | 71.9 | 60.2 | 63.5 |
| xbench-DeepSearch | 72 | 64.6 | 66 | 56 | 77.8 | 70 | 61 | 71 |
| HLE (w/ tools) | 31.8 | 20.3 | 24.5 | 28.4 * | 35.2 * | 30.4 * | 26.9 * | 27.2 * |
| τ²-Bench | 77.2 | 65.5* | 84.7* | 59.2 | 80.1* | 75.9* | 70.3 | 66.7 |
| FinSearchComp-global | 65.5 | 42 | 60.8 | 42.6* | 63.9* | 29.2 | 29.5* | 26.2 |
| AgentCompany | 36 | 37 | 41 | 39.3* | / | 35 | 30 | 34 |
注:带星号(*)的数据点直接取自模型官方技术报告或博客。其余指标均采用下文所述的评估方法获得。
- SWE-bench Verified :我们在OpenHands上使用与R2E-Gym(Jain等人,2025年)相同的脚手架,对SWE任务中的智能体进行测试。所有分数均在我们内部基础设施上验证,上下文长度为128k,最大步数100,且未进行测试时扩展。所有git相关内容已移除,确保智能体仅看到问题点的代码。
- Multi-SWE-Bench & SWE-bench Multilingual :所有分数为使用claude-code CLI(最大步数300)作为评估脚手架的8次运行平均值。
- Terminal-Bench :所有分数使用原始Terminal-Bench仓库(提交
94bf692)的官方claude-code评估,8次运行取平均通过率。- ArtifactsBench :所有分数为使用ArtifactsBench官方实现、以稳定版Gemini-2.5-Pro作为评判模型的三次运行平均值。
- BrowseComp & BrowseComp-zh & GAIA(纯文本)& xbench-DeepSearch :报告分数均采用与WebExplorer(Liu等人,2025年)相同的智能体框架,仅对工具描述稍作调整。我们遵循WebExplorer(Liu等人,2025年)使用103样本的纯文本GAIA验证子集。
- HLE(带工具) :所有报告分数均使用搜索工具和Python工具获取。搜索工具采用与WebExplorer(Liu等人,2025年)相同的智能体框架,Python工具在Jupyter环境中运行。我们使用纯文本HLE子集。
- τ²-Bench:所有报告分数采用"扩展思维工具使用"模式,并选用GPT-4.1作为用户模拟器。
- FinSearchComp-global :官方结果报告了GPT-5-Thinking、Gemini 2.5 Pro和Kimi-K2的分数。其他模型使用开源FinSearchComp(Hu等人,2025年)框架评估,同时启用搜索和Python工具以保证一致性。
- AgentCompany:所有报告分数使用OpenHands 0.42智能体框架。
智能基准测试
我们与Artificial Analysis 保持一致,该平台采用统一的方法整合具有挑战性的基准测试,以全面评估模型在数学、科学、指令遵循、编码及工具代理使用等领域的综合智能水平。
| Metric (AA) | MiniMax-M2 | Claude Sonnet 4 | Claude Sonnet 4.5 | Gemini 2.5 Pro | GPT-5 (thinking) | GLM-4.6 | Kimi K2 0905 | DeepSeek-V3.2 |
|---|---|---|---|---|---|---|---|---|
| AIME25 | 78 | 74 | 88 | 88 | 94 | 86 | 57 | 88 |
| MMLU-Pro | 82 | 84 | 88 | 86 | 87 | 83 | 82 | 85 |
| GPQA-Diamond | 78 | 78 | 83 | 84 | 85 | 78 | 77 | 80 |
| HLE (w/o tools) | 12.5 | 9.6 | 17.3 | 21.1 | 26.5 | 13.3 | 6.3 | 13.8 |
| LiveCodeBench (LCB) | 83 | 66 | 71 | 80 | 85 | 70 | 61 | 79 |
| SciCode | 36 | 40 | 45 | 43 | 43 | 38 | 31 | 38 |
| IFBench | 72 | 55 | 57 | 49 | 73 | 43 | 42 | 54 |
| AA-LCR | 61 | 65 | 66 | 66 | 76 | 54 | 52 | 69 |
| τ²-Bench-Telecom | 87 | 65 | 78 | 54 | 85 | 71 | 73 | 34 |
| Terminal-Bench-Hard | 24 | 30 | 33 | 25 | 31 | 23 | 23 | 29 |
| AA Intelligence | 61 | 57 | 63 | 60 | 69 | 56 | 50 | 57 |
AA: MiniMax-M2的所有分数均按照人工智能分析基准方法(https://artificialanalysis.ai/methodology/intelligence-benchmarking)对齐。其他模型分数均来自https://artificialanalysis.ai/。
为何激活规模至关重要
将激活参数维持在约100亿量级,可优化智能体工作流中"计划→执行→验证"的循环效率,既提升响应速度又降低计算开销:
- 在编译-运行-测试和浏览-检索-引用链中实现更快的反馈周期
- 同等预算下支持更高并发量,适用于回归测试集和多种子探索
- 容量规划更简单,单请求内存占用更小,尾延迟更稳定
简言之:100亿激活参数 = 敏捷的智能体循环 + 更优的单元经济效益
核心优势速览
若您需要前沿级编程与智能体能力,却不愿承担超大模型成本,MiniMax-M2正是理想选择:具备快速推理速度、强大工具调用能力,以及便于部署的轻量化特性。
我们期待您的反馈,并愿与开发者和研究者携手,共同推进智能协作新纪元。
使用方式
-
基于MiniMax-M2打造的MiniMax Agent 现已限时免费开放:https://agent.minimax.io/
-
MiniMax-M2 API 现已登陆 MiniMax 开放平台 ,并限时免费开放使用:https://platform.minimax.io/docs/guides/text-generation
-
MiniMax-M2 模型权重现已开源,支持本地部署使用:https://huggingface.co/MiniMaxAI/MiniMax-M2
本地部署指南
从 HuggingFace 仓库下载模型:https://huggingface.co/MiniMaxAI/MiniMax-M2。我们推荐使用以下推理框架(按字母顺序排列)来部署模型:
SGLang
推荐使用 SGLang 部署 MiniMax-M2。SGLang 为 MiniMax-M2 模型提供了完善的 Day-0 支持。请参考我们的 SGLang 部署指南 获取详情,特别感谢 SGLang 团队的合作支持。
vLLM
推荐使用 vLLM 部署 MiniMax-M2。vLLM 为 MiniMax-M2 模型提供了高效的 Day-0 支持,最新部署指南请查看:https://docs.vllm.ai/projects/recipes/en/latest/MiniMax/MiniMax-M2.html。我们也提供了 vLLM 部署指南。
推理参数
推荐使用以下参数以获得最佳性能:temperature=1.0,top_p=0.95,top_k=40。
重要说明: MiniMax-M2 是一个交错思考模型。因此,在使用时,必须保留助手回合中的思考内容作为历史消息。在模型的输出内容中,我们使用 <think>...</think> 格式包裹助手的思考内容。使用时,必须确保将历史内容按原始格式传回,切勿删除 <think>...</think> 部分,否则将影响模型性能。
工具调用指南
请参考我们的 工具调用指南。
联系我们
发送邮件至 model@minimax.io。