MiniMax 开源一个为极致编码与智能体工作流打造的迷你模型——MiniMax-M2

认识MiniMax-M2

今天我们发布并开源MiniMax-M2------一个为极致 编码与智能体工作流打造的迷你模型。

MiniMax-M2重新定义了智能体的效率标准。这款紧凑、快速且经济高效的混合专家模型(总参数量2300亿,激活参数量100亿)专为编码和智能体任务打造精英级性能,同时保持强大的通用智能。仅需激活100亿参数,MiniMax-M2就能提供当前主流模型所具备的端到端复杂工具使用性能,但其精简架构使得部署和扩展变得前所未有的轻松。


亮点

卓越智能。根据Artificial Analysis的基准测试,MiniMax-M2在数学、科学、指令遵循、编码和智能体工具使用方面展现出极具竞争力的通用智能水平。其综合得分位列全球开源模型榜首。

先进编码。专为端到端开发者工作流设计,MiniMax-M2擅长多文件编辑、编码-运行-修复循环及测试验证的代码修正。在Terminal-Bench和(Multi-)SWE-Bench类任务中的出色表现,证明了其在终端、集成开发环境和跨语言持续集成中的实际效能。

智能体表现。MiniMax-M2能规划执行涉及终端、浏览器、检索系统和代码运行器的复杂长流程工具链。在BrowseComp类评估中,它始终能定位深层资源,保持可追溯的证据链,并能从容应对不稳定操作步骤。

高效设计。通过激活100亿参数(总参数2300亿),MiniMax-M2为交互式智能体和批量采样提供更低延迟、更低成本与更高吞吐------完美契合当前行业向高可部署模型转型的趋势,同时在编码和智能体任务中保持卓越表现。


编码与智能体基准测试

这套综合评估体系测试现实场景中的端到端编码与智能体工具使用:编辑真实代码库、执行命令、浏览网页并交付功能性解决方案。其测试表现与开发者日常在终端、IDE和CI中的体验高度相关。

Benchmark MiniMax-M2 Claude Sonnet 4 Claude Sonnet 4.5 Gemini 2.5 Pro GPT-5 (thinking) GLM-4.6 Kimi K2 0905 DeepSeek-V3.2
SWE-bench Verified 69.4 72.7 * 77.2 * 63.8 * 74.9 * 68 * 69.2 * 67.8 *
Multi-SWE-Bench 36.2 35.7 * 44.3 / / 30 33.5 30.6
SWE-bench Multilingual 56.5 56.9 * 68 / / 53.8 55.9 * 57.9 *
Terminal-Bench 46.3 36.4 * 50 * 25.3 * 43.8 * 40.5 * 44.5 * 37.7 *
ArtifactsBench 66.8 57.3* 61.5 57.7* 73* 59.8 54.2 55.8
BrowseComp 44 12.2 19.6 9.9 54.9* 45.1* 14.1 40.1*
BrowseComp-zh 48.5 29.1 40.8 32.2 65 49.5 28.8 47.9*
GAIA (text only) 75.7 68.3 71.2 60.2 76.4 71.9 60.2 63.5
xbench-DeepSearch 72 64.6 66 56 77.8 70 61 71
HLE (w/ tools) 31.8 20.3 24.5 28.4 * 35.2 * 30.4 * 26.9 * 27.2 *
τ²-Bench 77.2 65.5* 84.7* 59.2 80.1* 75.9* 70.3 66.7
FinSearchComp-global 65.5 42 60.8 42.6* 63.9* 29.2 29.5* 26.2
AgentCompany 36 37 41 39.3* / 35 30 34

注:带星号(*)的数据点直接取自模型官方技术报告或博客。其余指标均采用下文所述的评估方法获得。

  • SWE-bench Verified :我们在OpenHands上使用与R2E-Gym(Jain等人,2025年)相同的脚手架,对SWE任务中的智能体进行测试。所有分数均在我们内部基础设施上验证,上下文长度为128k,最大步数100,且未进行测试时扩展。所有git相关内容已移除,确保智能体仅看到问题点的代码。
  • Multi-SWE-Bench & SWE-bench Multilingual :所有分数为使用claude-code CLI(最大步数300)作为评估脚手架的8次运行平均值。
  • Terminal-Bench :所有分数使用原始Terminal-Bench仓库(提交94bf692)的官方claude-code评估,8次运行取平均通过率。
  • ArtifactsBench :所有分数为使用ArtifactsBench官方实现、以稳定版Gemini-2.5-Pro作为评判模型的三次运行平均值。
  • BrowseComp & BrowseComp-zh & GAIA(纯文本)& xbench-DeepSearch :报告分数均采用与WebExplorer(Liu等人,2025年)相同的智能体框架,仅对工具描述稍作调整。我们遵循WebExplorer(Liu等人,2025年)使用103样本的纯文本GAIA验证子集。
  • HLE(带工具) :所有报告分数均使用搜索工具和Python工具获取。搜索工具采用与WebExplorer(Liu等人,2025年)相同的智能体框架,Python工具在Jupyter环境中运行。我们使用纯文本HLE子集。
  • τ²-Bench:所有报告分数采用"扩展思维工具使用"模式,并选用GPT-4.1作为用户模拟器。
  • FinSearchComp-global :官方结果报告了GPT-5-Thinking、Gemini 2.5 Pro和Kimi-K2的分数。其他模型使用开源FinSearchComp(Hu等人,2025年)框架评估,同时启用搜索和Python工具以保证一致性。
  • AgentCompany:所有报告分数使用OpenHands 0.42智能体框架。

智能基准测试

我们与Artificial Analysis 保持一致,该平台采用统一的方法整合具有挑战性的基准测试,以全面评估模型在数学、科学、指令遵循、编码及工具代理使用等领域的综合智能水平

Metric (AA) MiniMax-M2 Claude Sonnet 4 Claude Sonnet 4.5 Gemini 2.5 Pro GPT-5 (thinking) GLM-4.6 Kimi K2 0905 DeepSeek-V3.2
AIME25 78 74 88 88 94 86 57 88
MMLU-Pro 82 84 88 86 87 83 82 85
GPQA-Diamond 78 78 83 84 85 78 77 80
HLE (w/o tools) 12.5 9.6 17.3 21.1 26.5 13.3 6.3 13.8
LiveCodeBench (LCB) 83 66 71 80 85 70 61 79
SciCode 36 40 45 43 43 38 31 38
IFBench 72 55 57 49 73 43 42 54
AA-LCR 61 65 66 66 76 54 52 69
τ²-Bench-Telecom 87 65 78 54 85 71 73 34
Terminal-Bench-Hard 24 30 33 25 31 23 23 29
AA Intelligence 61 57 63 60 69 56 50 57

AA: MiniMax-M2的所有分数均按照人工智能分析基准方法(https://artificialanalysis.ai/methodology/intelligence-benchmarking)对齐。其他模型分数均来自https://artificialanalysis.ai/。


为何激活规模至关重要

将激活参数维持在约100亿量级,可优化智能体工作流中"计划→执行→验证"的循环效率,既提升响应速度又降低计算开销:

  • 在编译-运行-测试和浏览-检索-引用链中实现更快的反馈周期
  • 同等预算下支持更高并发量,适用于回归测试集和多种子探索
  • 容量规划更简单,单请求内存占用更小,尾延迟更稳定

简言之:100亿激活参数 = 敏捷的智能体循环 + 更优的单元经济效益

核心优势速览

若您需要前沿级编程与智能体能力,却不愿承担超大模型成本,MiniMax-M2正是理想选择:具备快速推理速度、强大工具调用能力,以及便于部署的轻量化特性。

我们期待您的反馈,并愿与开发者和研究者携手,共同推进智能协作新纪元。

使用方式

本地部署指南

从 HuggingFace 仓库下载模型:https://huggingface.co/MiniMaxAI/MiniMax-M2。我们推荐使用以下推理框架(按字母顺序排列)来部署模型:

SGLang

推荐使用 SGLang 部署 MiniMax-M2。SGLang 为 MiniMax-M2 模型提供了完善的 Day-0 支持。请参考我们的 SGLang 部署指南 获取详情,特别感谢 SGLang 团队的合作支持。

vLLM

推荐使用 vLLM 部署 MiniMax-M2。vLLM 为 MiniMax-M2 模型提供了高效的 Day-0 支持,最新部署指南请查看:https://docs.vllm.ai/projects/recipes/en/latest/MiniMax/MiniMax-M2.html。我们也提供了 vLLM 部署指南

推理参数

推荐使用以下参数以获得最佳性能:temperature=1.0top_p=0.95top_k=40

重要说明: MiniMax-M2 是一个交错思考模型。因此,在使用时,必须保留助手回合中的思考内容作为历史消息。在模型的输出内容中,我们使用 <think>...</think> 格式包裹助手的思考内容。使用时,必须确保将历史内容按原始格式传回,切勿删除 <think>...</think> 部分,否则将影响模型性能。

工具调用指南

请参考我们的 工具调用指南

联系我们

发送邮件至 model@minimax.io

相关推荐
王牌狮AIen3 小时前
AI营销智能体实战:OPC如何重构自主获客闭环?
大数据·人工智能·重构·数据挖掘·geo·ai营销
代码有点萌3 小时前
ComfyUI 新手实战记录:一次跑通 AI 绘图工作流
人工智能
元启数宇3 小时前
机电设计AI不只是消防:给排水、暖通、强弱电如何进入自动化?
运维·人工智能·自动化
我登哥MVP3 小时前
VS Code 安装 Claude Code 并接入 DeepSeek V4 Model
人工智能·python·node.js·agent·codex·deepseek·claude code
unique3 小时前
AI Native 调研报告
人工智能
云烟成雨TD3 小时前
Spring AI Alibaba 1.x 系列【73】两步 RAG
java·人工智能·spring
ai产品老杨3 小时前
解耦视频高并发与边缘计算AI布控:基于Docker的高性能安防平台,破局GB28181/RTSP协议兼容与源码交付痛点
人工智能·音视频·边缘计算
CHrisFC3 小时前
LIMS 系统 AI 建设路径:从自动化到智能化的演进之路
运维·人工智能·自动化
饼干哥哥3 小时前
一口气搭了300个AI Agents并发处理跨境运营的dirty work
人工智能
AI行业学习3 小时前
CC‑Switch v3.16.1-下载、配置、安装(2026‑06‑01 最新官方版)
开发语言·人工智能·windows·python