MiniMax 开源一个为极致编码与智能体工作流打造的迷你模型——MiniMax-M2

认识MiniMax-M2

今天我们发布并开源MiniMax-M2------一个为极致 编码与智能体工作流打造的迷你模型。

MiniMax-M2重新定义了智能体的效率标准。这款紧凑、快速且经济高效的混合专家模型(总参数量2300亿,激活参数量100亿)专为编码和智能体任务打造精英级性能,同时保持强大的通用智能。仅需激活100亿参数,MiniMax-M2就能提供当前主流模型所具备的端到端复杂工具使用性能,但其精简架构使得部署和扩展变得前所未有的轻松。


亮点

卓越智能。根据Artificial Analysis的基准测试,MiniMax-M2在数学、科学、指令遵循、编码和智能体工具使用方面展现出极具竞争力的通用智能水平。其综合得分位列全球开源模型榜首。

先进编码。专为端到端开发者工作流设计,MiniMax-M2擅长多文件编辑、编码-运行-修复循环及测试验证的代码修正。在Terminal-Bench和(Multi-)SWE-Bench类任务中的出色表现,证明了其在终端、集成开发环境和跨语言持续集成中的实际效能。

智能体表现。MiniMax-M2能规划执行涉及终端、浏览器、检索系统和代码运行器的复杂长流程工具链。在BrowseComp类评估中,它始终能定位深层资源,保持可追溯的证据链,并能从容应对不稳定操作步骤。

高效设计。通过激活100亿参数(总参数2300亿),MiniMax-M2为交互式智能体和批量采样提供更低延迟、更低成本与更高吞吐------完美契合当前行业向高可部署模型转型的趋势,同时在编码和智能体任务中保持卓越表现。


编码与智能体基准测试

这套综合评估体系测试现实场景中的端到端编码与智能体工具使用:编辑真实代码库、执行命令、浏览网页并交付功能性解决方案。其测试表现与开发者日常在终端、IDE和CI中的体验高度相关。

Benchmark MiniMax-M2 Claude Sonnet 4 Claude Sonnet 4.5 Gemini 2.5 Pro GPT-5 (thinking) GLM-4.6 Kimi K2 0905 DeepSeek-V3.2
SWE-bench Verified 69.4 72.7 * 77.2 * 63.8 * 74.9 * 68 * 69.2 * 67.8 *
Multi-SWE-Bench 36.2 35.7 * 44.3 / / 30 33.5 30.6
SWE-bench Multilingual 56.5 56.9 * 68 / / 53.8 55.9 * 57.9 *
Terminal-Bench 46.3 36.4 * 50 * 25.3 * 43.8 * 40.5 * 44.5 * 37.7 *
ArtifactsBench 66.8 57.3* 61.5 57.7* 73* 59.8 54.2 55.8
BrowseComp 44 12.2 19.6 9.9 54.9* 45.1* 14.1 40.1*
BrowseComp-zh 48.5 29.1 40.8 32.2 65 49.5 28.8 47.9*
GAIA (text only) 75.7 68.3 71.2 60.2 76.4 71.9 60.2 63.5
xbench-DeepSearch 72 64.6 66 56 77.8 70 61 71
HLE (w/ tools) 31.8 20.3 24.5 28.4 * 35.2 * 30.4 * 26.9 * 27.2 *
τ²-Bench 77.2 65.5* 84.7* 59.2 80.1* 75.9* 70.3 66.7
FinSearchComp-global 65.5 42 60.8 42.6* 63.9* 29.2 29.5* 26.2
AgentCompany 36 37 41 39.3* / 35 30 34

注:带星号(*)的数据点直接取自模型官方技术报告或博客。其余指标均采用下文所述的评估方法获得。

  • SWE-bench Verified :我们在OpenHands上使用与R2E-Gym(Jain等人,2025年)相同的脚手架,对SWE任务中的智能体进行测试。所有分数均在我们内部基础设施上验证,上下文长度为128k,最大步数100,且未进行测试时扩展。所有git相关内容已移除,确保智能体仅看到问题点的代码。
  • Multi-SWE-Bench & SWE-bench Multilingual :所有分数为使用claude-code CLI(最大步数300)作为评估脚手架的8次运行平均值。
  • Terminal-Bench :所有分数使用原始Terminal-Bench仓库(提交94bf692)的官方claude-code评估,8次运行取平均通过率。
  • ArtifactsBench :所有分数为使用ArtifactsBench官方实现、以稳定版Gemini-2.5-Pro作为评判模型的三次运行平均值。
  • BrowseComp & BrowseComp-zh & GAIA(纯文本)& xbench-DeepSearch :报告分数均采用与WebExplorer(Liu等人,2025年)相同的智能体框架,仅对工具描述稍作调整。我们遵循WebExplorer(Liu等人,2025年)使用103样本的纯文本GAIA验证子集。
  • HLE(带工具) :所有报告分数均使用搜索工具和Python工具获取。搜索工具采用与WebExplorer(Liu等人,2025年)相同的智能体框架,Python工具在Jupyter环境中运行。我们使用纯文本HLE子集。
  • τ²-Bench:所有报告分数采用"扩展思维工具使用"模式,并选用GPT-4.1作为用户模拟器。
  • FinSearchComp-global :官方结果报告了GPT-5-Thinking、Gemini 2.5 Pro和Kimi-K2的分数。其他模型使用开源FinSearchComp(Hu等人,2025年)框架评估,同时启用搜索和Python工具以保证一致性。
  • AgentCompany:所有报告分数使用OpenHands 0.42智能体框架。

智能基准测试

我们与Artificial Analysis 保持一致,该平台采用统一的方法整合具有挑战性的基准测试,以全面评估模型在数学、科学、指令遵循、编码及工具代理使用等领域的综合智能水平

Metric (AA) MiniMax-M2 Claude Sonnet 4 Claude Sonnet 4.5 Gemini 2.5 Pro GPT-5 (thinking) GLM-4.6 Kimi K2 0905 DeepSeek-V3.2
AIME25 78 74 88 88 94 86 57 88
MMLU-Pro 82 84 88 86 87 83 82 85
GPQA-Diamond 78 78 83 84 85 78 77 80
HLE (w/o tools) 12.5 9.6 17.3 21.1 26.5 13.3 6.3 13.8
LiveCodeBench (LCB) 83 66 71 80 85 70 61 79
SciCode 36 40 45 43 43 38 31 38
IFBench 72 55 57 49 73 43 42 54
AA-LCR 61 65 66 66 76 54 52 69
τ²-Bench-Telecom 87 65 78 54 85 71 73 34
Terminal-Bench-Hard 24 30 33 25 31 23 23 29
AA Intelligence 61 57 63 60 69 56 50 57

AA: MiniMax-M2的所有分数均按照人工智能分析基准方法(https://artificialanalysis.ai/methodology/intelligence-benchmarking)对齐。其他模型分数均来自https://artificialanalysis.ai/。


为何激活规模至关重要

将激活参数维持在约100亿量级,可优化智能体工作流中"计划→执行→验证"的循环效率,既提升响应速度又降低计算开销:

  • 在编译-运行-测试和浏览-检索-引用链中实现更快的反馈周期
  • 同等预算下支持更高并发量,适用于回归测试集和多种子探索
  • 容量规划更简单,单请求内存占用更小,尾延迟更稳定

简言之:100亿激活参数 = 敏捷的智能体循环 + 更优的单元经济效益

核心优势速览

若您需要前沿级编程与智能体能力,却不愿承担超大模型成本,MiniMax-M2正是理想选择:具备快速推理速度、强大工具调用能力,以及便于部署的轻量化特性。

我们期待您的反馈,并愿与开发者和研究者携手,共同推进智能协作新纪元。

使用方式

本地部署指南

从 HuggingFace 仓库下载模型:https://huggingface.co/MiniMaxAI/MiniMax-M2。我们推荐使用以下推理框架(按字母顺序排列)来部署模型:

SGLang

推荐使用 SGLang 部署 MiniMax-M2。SGLang 为 MiniMax-M2 模型提供了完善的 Day-0 支持。请参考我们的 SGLang 部署指南 获取详情,特别感谢 SGLang 团队的合作支持。

vLLM

推荐使用 vLLM 部署 MiniMax-M2。vLLM 为 MiniMax-M2 模型提供了高效的 Day-0 支持,最新部署指南请查看:https://docs.vllm.ai/projects/recipes/en/latest/MiniMax/MiniMax-M2.html。我们也提供了 vLLM 部署指南

推理参数

推荐使用以下参数以获得最佳性能:temperature=1.0top_p=0.95top_k=40

重要说明: MiniMax-M2 是一个交错思考模型。因此,在使用时,必须保留助手回合中的思考内容作为历史消息。在模型的输出内容中,我们使用 <think>...</think> 格式包裹助手的思考内容。使用时,必须确保将历史内容按原始格式传回,切勿删除 <think>...</think> 部分,否则将影响模型性能。

工具调用指南

请参考我们的 工具调用指南

联系我们

发送邮件至 model@minimax.io

相关推荐
Giser探索家5 小时前
无人机桥梁巡检:以“空天地”智慧之力守护交通生命线
大数据·人工智能·算法·安全·架构·无人机
不会学习的小白O^O5 小时前
双通道深度学习框架可实现从无人机激光雷达点云中提取橡胶树冠
人工智能·深度学习·无人机
恒点虚拟仿真5 小时前
虚拟仿真实训破局革新:打造无人机飞行专业实践教学新范式
人工智能·无人机·ai教学·虚拟仿真实训·无人机飞行·无人机专业虚拟仿真·无人机飞行虚拟仿真
鲜枣课堂5 小时前
华为最新光通信架构AI-OTN,如何应对AI浪潮?
人工智能·华为·架构
格林威6 小时前
AOI在新能源电池制造领域的应用
人工智能·数码相机·计算机视觉·视觉检测·制造·工业相机
dxnb226 小时前
Datawhale25年10月组队学习:math for AI+Task5解析几何
人工智能·学习
DooTask官方号6 小时前
DooTask 1.3.38 版本更新:MCP 服务器与 AI 工具深度融合,开启任务管理新体验
运维·服务器·人工智能·开源软件·dootask
Coovally AI模型快速验证8 小时前
OmniNWM:突破自动驾驶世界模型三大瓶颈,全景多模态仿真新标杆(附代码地址)
人工智能·深度学习·机器学习·计算机视觉·自动驾驶·transformer