MiniMax 开源一个为极致编码与智能体工作流打造的迷你模型——MiniMax-M2

认识MiniMax-M2

今天我们发布并开源MiniMax-M2------一个为极致编码与智能体工作流打造的迷你模型。

MiniMax-M2重新定义了智能体的效率标准。这款紧凑、快速且经济高效的混合专家模型（总参数量2300亿，激活参数量100亿）专为编码和智能体任务打造精英级性能，同时保持强大的通用智能。仅需激活100亿参数，MiniMax-M2就能提供当前主流模型所具备的端到端复杂工具使用性能，但其精简架构使得部署和扩展变得前所未有的轻松。

亮点

卓越智能。根据Artificial Analysis的基准测试，MiniMax-M2在数学、科学、指令遵循、编码和智能体工具使用方面展现出极具竞争力的通用智能水平。其综合得分位列全球开源模型榜首。

先进编码。专为端到端开发者工作流设计，MiniMax-M2擅长多文件编辑、编码-运行-修复循环及测试验证的代码修正。在Terminal-Bench和(Multi-)SWE-Bench类任务中的出色表现，证明了其在终端、集成开发环境和跨语言持续集成中的实际效能。

智能体表现。MiniMax-M2能规划执行涉及终端、浏览器、检索系统和代码运行器的复杂长流程工具链。在BrowseComp类评估中，它始终能定位深层资源，保持可追溯的证据链，并能从容应对不稳定操作步骤。

高效设计。通过激活100亿参数（总参数2300亿），MiniMax-M2为交互式智能体和批量采样提供更低延迟、更低成本与更高吞吐------完美契合当前行业向高可部署模型转型的趋势，同时在编码和智能体任务中保持卓越表现。

编码与智能体基准测试

这套综合评估体系测试现实场景中的端到端编码与智能体工具使用：编辑真实代码库、执行命令、浏览网页并交付功能性解决方案。其测试表现与开发者日常在终端、IDE和CI中的体验高度相关。

Benchmark	MiniMax-M2	Claude Sonnet 4	Claude Sonnet 4.5	Gemini 2.5 Pro	GPT-5 (thinking)	GLM-4.6	Kimi K2 0905	DeepSeek-V3.2
SWE-bench Verified	69.4	72.7 *	77.2 *	63.8 *	74.9 *	68 *	69.2 *	67.8 *
Multi-SWE-Bench	36.2	35.7 *	44.3	/	/	30	33.5	30.6
SWE-bench Multilingual	56.5	56.9 *	68	/	/	53.8	55.9 *	57.9 *
Terminal-Bench	46.3	36.4 *	50 *	25.3 *	43.8 *	40.5 *	44.5 *	37.7 *
ArtifactsBench	66.8	57.3*	61.5	57.7*	73*	59.8	54.2	55.8
BrowseComp	44	12.2	19.6	9.9	54.9*	45.1*	14.1	40.1*
BrowseComp-zh	48.5	29.1	40.8	32.2	65	49.5	28.8	47.9*
GAIA (text only)	75.7	68.3	71.2	60.2	76.4	71.9	60.2	63.5
xbench-DeepSearch	72	64.6	66	56	77.8	70	61	71
HLE (w/ tools)	31.8	20.3	24.5	28.4 *	35.2 *	30.4 *	26.9 *	27.2 *
τ²-Bench	77.2	65.5*	84.7*	59.2	80.1*	75.9*	70.3	66.7
FinSearchComp-global	65.5	42	60.8	42.6*	63.9*	29.2	29.5*	26.2
AgentCompany	36	37	41	39.3*	/	35	30	34

注：带星号（*）的数据点直接取自模型官方技术报告或博客。其余指标均采用下文所述的评估方法获得。

SWE-bench Verified ：我们在OpenHands上使用与R2E-Gym（Jain等人，2025年）相同的脚手架，对SWE任务中的智能体进行测试。所有分数均在我们内部基础设施上验证，上下文长度为128k，最大步数100，且未进行测试时扩展。所有git相关内容已移除，确保智能体仅看到问题点的代码。

Multi-SWE-Bench & SWE-bench Multilingual ：所有分数为使用claude-code CLI（最大步数300）作为评估脚手架的8次运行平均值。

Terminal-Bench ：所有分数使用原始Terminal-Bench仓库（提交94bf692）的官方claude-code评估，8次运行取平均通过率。

ArtifactsBench ：所有分数为使用ArtifactsBench官方实现、以稳定版Gemini-2.5-Pro作为评判模型的三次运行平均值。

BrowseComp & BrowseComp-zh & GAIA（纯文本）& xbench-DeepSearch ：报告分数均采用与WebExplorer（Liu等人，2025年）相同的智能体框架，仅对工具描述稍作调整。我们遵循WebExplorer（Liu等人，2025年）使用103样本的纯文本GAIA验证子集。

HLE（带工具） ：所有报告分数均使用搜索工具和Python工具获取。搜索工具采用与WebExplorer（Liu等人，2025年）相同的智能体框架，Python工具在Jupyter环境中运行。我们使用纯文本HLE子集。

τ²-Bench：所有报告分数采用"扩展思维工具使用"模式，并选用GPT-4.1作为用户模拟器。

FinSearchComp-global ：官方结果报告了GPT-5-Thinking、Gemini 2.5 Pro和Kimi-K2的分数。其他模型使用开源FinSearchComp（Hu等人，2025年）框架评估，同时启用搜索和Python工具以保证一致性。

AgentCompany：所有报告分数使用OpenHands 0.42智能体框架。

智能基准测试

我们与Artificial Analysis 保持一致，该平台采用统一的方法整合具有挑战性的基准测试，以全面评估模型在数学、科学、指令遵循、编码及工具代理使用等领域的综合智能水平。

Metric (AA)	MiniMax-M2	Claude Sonnet 4	Claude Sonnet 4.5	Gemini 2.5 Pro	GPT-5 (thinking)	GLM-4.6	Kimi K2 0905	DeepSeek-V3.2
AIME25	78	74	88	88	94	86	57	88
MMLU-Pro	82	84	88	86	87	83	82	85
GPQA-Diamond	78	78	83	84	85	78	77	80
HLE (w/o tools)	12.5	9.6	17.3	21.1	26.5	13.3	6.3	13.8
LiveCodeBench (LCB)	83	66	71	80	85	70	61	79
SciCode	36	40	45	43	43	38	31	38
IFBench	72	55	57	49	73	43	42	54
AA-LCR	61	65	66	66	76	54	52	69
τ²-Bench-Telecom	87	65	78	54	85	71	73	34
Terminal-Bench-Hard	24	30	33	25	31	23	23	29
AA Intelligence	61	57	63	60	69	56	50	57

AA: MiniMax-M2的所有分数均按照人工智能分析基准方法（https://artificialanalysis.ai/methodology/intelligence-benchmarking）对齐。其他模型分数均来自https://artificialanalysis.ai/。

为何激活规模至关重要

将激活参数维持在约100亿量级，可优化智能体工作流中"计划→执行→验证"的循环效率，既提升响应速度又降低计算开销：

在编译-运行-测试和浏览-检索-引用链中实现更快的反馈周期
同等预算下支持更高并发量，适用于回归测试集和多种子探索
容量规划更简单，单请求内存占用更小，尾延迟更稳定

简言之：100亿激活参数 = 敏捷的智能体循环 + 更优的单元经济效益

核心优势速览

若您需要前沿级编程与智能体能力，却不愿承担超大模型成本，MiniMax-M2正是理想选择：具备快速推理速度、强大工具调用能力，以及便于部署的轻量化特性。

我们期待您的反馈，并愿与开发者和研究者携手，共同推进智能协作新纪元。

使用方式

基于MiniMax-M2打造的MiniMax Agent 现已限时免费开放：https://agent.minimax.io/
MiniMax-M2 API 现已登陆 MiniMax 开放平台 ，并限时免费开放使用：https://platform.minimax.io/docs/guides/text-generation
MiniMax-M2 模型权重现已开源，支持本地部署使用：https://huggingface.co/MiniMaxAI/MiniMax-M2

本地部署指南

从 HuggingFace 仓库下载模型：https://huggingface.co/MiniMaxAI/MiniMax-M2。我们推荐使用以下推理框架（按字母顺序排列）来部署模型：

SGLang

推荐使用 SGLang 部署 MiniMax-M2。SGLang 为 MiniMax-M2 模型提供了完善的 Day-0 支持。请参考我们的 SGLang 部署指南获取详情，特别感谢 SGLang 团队的合作支持。

vLLM

推荐使用 vLLM 部署 MiniMax-M2。vLLM 为 MiniMax-M2 模型提供了高效的 Day-0 支持，最新部署指南请查看：https://docs.vllm.ai/projects/recipes/en/latest/MiniMax/MiniMax-M2.html。我们也提供了 vLLM 部署指南。

推理参数

推荐使用以下参数以获得最佳性能：temperature=1.0，top_p=0.95，top_k=40。

重要说明： MiniMax-M2 是一个交错思考模型。因此，在使用时，必须保留助手回合中的思考内容作为历史消息。在模型的输出内容中，我们使用 <think>...</think> 格式包裹助手的思考内容。使用时，必须确保将历史内容按原始格式传回，切勿删除 <think>...</think> 部分，否则将影响模型性能。

工具调用指南

请参考我们的工具调用指南。

联系我们

发送邮件至 model@minimax.io。