MiniMax M3 深度体验：这可能是国产模型里最接近“全能工程师”的一次

今天早上，MiniMax 正式发布了全新的 MiniMax M3 大模型。

如果只看官方介绍，它的关键词非常明确：

前沿 Coding 能力、Agentic 能力、100 万 tokens 超长上下文、原生多模态。

🔥🔥🔥本篇笔记所对应的视频：www.bilibili.com/video/BV1ax...

这几个词单独拿出来，每一个都不新鲜。

现在的问题是：很多模型会写代码，但不能稳定处理大型工程；很多模型支持长上下文，但一到真实项目就开始"看不全、找不准"；很多模型说自己多模态，但实际只能看图回答，很难真正把图像理解转化成可运行的前端代码；很多模型号称 Agentic，但真正放进 Claude Code 这种工程环境里，就会暴露出规划能力、工具调用能力和长任务稳定性的问题。

所以这次我没有只看官方发布稿，而是直接把 MiniMax M3 接入 Claude Code，做了一轮更贴近真实开发场景的测试。

结果可以说：MiniMax M3 不是一个只会刷榜的模型，它在真实工程任务里的表现，确实有点东西。

一、MiniMax M3 到底强在哪里？

MiniMax M3 最核心的卖点，不是单点能力，而是三种能力第一次被组合在了一起：

第一，Coding 和 Agentic 能力。 它不只是补全代码，而是要面向真实工程任务：理解项目、定位问题、拆解方案、修改文件、解释改动、完成验证。

第二，100 万 tokens 超长上下文。 这意味着它可以把大型代码库、长文档、复杂日志、小说文本、项目说明等内容放进同一个上下文里处理。

第三，原生多模态能力。 它不仅能读文字，还能理解截图、图像甚至视频，并把视觉理解转化成前端页面、UI 复刻、交互设计等实际产物。

这三个能力组合起来，MiniMax M3 的定位就很清楚了：

它不是单纯的聊天模型，也不是单纯的代码补全模型，而是更接近一个可以长期协作的 AI 工程助手。

二、为什么 100 万上下文很关键？

很多人看到"100 万 tokens"，第一反应是：这是不是只是营销参数？

但在真实工程场景里，长上下文不是锦上添花，而是决定模型能不能真正理解复杂任务的基础能力。

比如你让模型分析一个大型代码库，普通模型往往只能看到局部文件。它可能能回答某个函数是什么意思，但很难理解整个项目的架构关系。

如果你让它分析几十万行代码，情况就更明显了：

它必须知道配置在哪里；必须知道调用链从哪里开始；必须知道哪些文件是核心逻辑；必须知道哪些代码只是辅助逻辑；还必须知道某个 bug 的根因到底来自局部实现，还是来自系统设计。

这时，长上下文的价值就体现出来了。

它让模型不再只是"猜代码"，而是有机会真正"读项目"。

MiniMax M3 采用的是 MiniMax Sparse Attention，也就是 MSA 架构。简单理解，它的目标就是降低长上下文带来的计算压力，让模型在百万级上下文中依然能保持较好的效率和可用性。

官方提到，在 100 万上下文长度下，M3 每个 token 的计算量只有上一代模型的 1/20，并且在 prefilling 和 decoding 阶段都有明显加速。

这也是为什么 MiniMax M3 能把长上下文、Coding 和 Agent 能力放到一起，而不是只把长上下文当成一个参数展示。

三、实测一：接入 Claude Code，直接跑工程级任务

这次测试，我先把 Claude Code 的 base URL 和模型 ID 改成 MiniMax M3。

也就是说，我们不是在网页聊天框里问它"帮我写一个函数"，而是让它真正进入 Claude Code 的工程环境，像一个 coding agent 一样工作。

第一个测试项目是 OpenClaw。

OpenClaw 是一个比较庞大的开源项目，代码量大，结构复杂，issues 里也存在不少真实 bug。用它来测试模型，比让模型写一个 demo 更有参考价值。

我先让 MiniMax M3 对项目执行 init，让它生成 CLAUDE.md，对项目做初步理解。

接着，我从 OpenClaw 的 issue 中选择一个代表性 bug，让 MiniMax M3 先定位 bug 原因，而不是直接修复。

这里它的表现比较关键。

它没有一上来就乱改代码，而是先分析根因，解释问题出在哪里，并拆解触发 bug 的路径。

随后我继续要求它修复这个 bug，并且明确提出几个约束：

改动尽量小；保持项目原有代码风格；不要引入不必要的重构；只做精准修复。

MiniMax M3 的表现很像一个经验比较成熟的工程师。

它没有立刻动手，而是先给出 3 个修复方向，并说明每个方向会影响哪些文件、改动面多大、是否需要引入新的配置开关。

这点非常重要。

因为真实工程开发中，最怕的不是模型不会写代码，而是模型"太积极"：明明只需要修一个小 bug，它却顺手重构半个项目。

MiniMax M3 在这里表现出了一种比较好的工程克制感：先分析，再给方案，再让用户选择，最后执行。

我选择其中一个方案后，它开始修改代码。大约几分钟后，它完成修复，并给出了修改文件、行为变化和修复说明。

这个测试说明：MiniMax M3 在 Claude Code 中不只是能生成代码，它具备一定的工程判断能力。

四、实测二：分析 50 多万行 Claude Code 源码

第二个测试，我进一步加大难度。

我让 MiniMax M3 分析 Claude Code 泄露出来的 50 多万行源码，目标是找出 Claude Code 如何进行用户遥测。

这个任务其实很适合测试长上下文能力和代码理解能力。

因为它不是让模型看一个文件，而是要求模型在大量代码中定位关键逻辑：

遥测出口端点在哪里；相关文件路径是什么；具体代码行数在哪里；有哪些控制开关；设备 ID 或身份指纹如何生成；哪些功能可以开启或关闭。

MiniMax M3 很快完成了分析。

它从源码中找出了多个出口端点，给出了具体文件位置和代码行数，还整理出了控制遥测功能的开关，并分析了设备 ID、身份指纹等相关逻辑。

这个结果让我印象比较深。

因为这类任务最考验模型的不是"会不会解释代码"，而是能不能在巨大代码库中快速定位真正重要的部分。

如果模型上下文不够长，它很容易只看到局部。如果模型检索能力不够好，它会漏掉关键文件。如果模型工程理解不够强，它会把无关代码也当成核心逻辑。

MiniMax M3 在这个测试中表现出来的能力是：它能把长上下文、代码搜索、结构化总结结合起来，完成一个比较接近真实代码审计的任务。

这说明它的 100 万 tokens 上下文不是摆设。

在大型代码库分析、隐私逻辑审计、安全审查、项目迁移、技术债梳理等场景里，这类能力会非常有价值。

五、实测三：读完整部《西游记》，生成交互式取经路线图

接下来，我换了一个完全不同的测试。

这次不是代码库，而是长文本理解。

我把完整《西游记》文本交给 MiniMax M3，让它先通读全文，然后用前端技术生成一张可交互的唐僧取经路线图。

要求包括：

整理取经途中的主要国家和地点；列出每个地点遇到的妖怪；总结关键剧情事件；按顺序生成路线节点；点击节点后弹出妖怪、事件、危险等级等细节；视觉风格要有古典卷轴感。

这个任务看起来像前端开发，但本质上是一个综合任务：

它需要长文本阅读；需要文学内容理解；需要信息抽取；需要结构化整理；需要前端可视化；还需要 UI 审美。

MiniMax M3 的处理方式比较聪明。

它没有硬读全部内容然后直接生成，而是先用搜索方式定位关键章节，再派生多个 subagents 执行任务。

最终生成的页面是一个古典卷轴风格的取经路线图。

打开之后，可以看到多个路线节点。点击"长安"，会弹出长安对应的介绍和关键事件；点击"鹰愁涧"，能看到第 15 回、危险等级、关键事件、主要妖怪和取经收获；点击"狮驼国"，也能看到主要妖怪、剧情概要和危险等级。

尤其是"狮驼国"的危险等级划分，我认为比较准确。

这个测试说明 MiniMax M3 不只是能"装下"长文本，更重要的是它能从长文本中抽取结构化信息，并进一步转化成可交互产品。

这类能力非常适合用在知识库、课程内容、小说可视化、长文档分析、历史事件地图、企业内部手册可视化等场景。

六、实测四：看 Apple Music 截图，复刻前端 UI

然后我测试了 MiniMax M3 的多模态能力。

我给它三张 Apple Music 的截图，要求它用 HTML、CSS 和 JS 高保真复刻一个类似 Apple Music 风格的音乐播放器界面。

这个任务难点在于：

模型要先理解截图里的布局；再理解颜色、层级、卡片、封面、导航、按钮；然后把视觉理解转化成前端代码；最后还要生成一个可交互 UI。

几分钟后，MiniMax M3 完成了页面。

打开效果后，可以看到它复刻出来的界面确实很接近 Apple Music 风格。有侧边栏，有主页，有音乐卡片，有封面图，有播放器区域，也有对应的交互元素。

整体还原度我主观判断能达到 90% 左右。

这说明 MiniMax M3 的多模态能力不是停留在"看图描述"层面，而是可以把截图理解变成可运行的前端页面。

这点对开发者很实用。

以后如果你看到一个网页、App 或仪表盘设计，只要给模型截图，就可以让它快速生成一个高保真前端原型。

对独立开发者、产品经理、前端工程师、内容创作者来说，这种能力会大幅降低从灵感到 demo 的成本。

七、实测五：Three.js 生成 3D 游戏

最后，我又测试了 MiniMax M3 的创意代码生成能力。

第一个游戏是 3D 侏罗纪风格的皮卡车狩猎恐龙游戏。

要求使用 Three.js，在浏览器中运行。玩家可以驾驶皮卡车，车上有机枪，可以控制方向并射击远处走来的恐龙。

MiniMax M3 生成后，页面中有开始按钮，进入游戏后可以看到皮卡车、机枪、恐龙、射击效果和音效。恐龙被击中后会消失。

第二个游戏是墓穴探险游戏。

要求是第一人称视角，玩家在古墓里探险，头灯只能照亮前方一小片区域，其余部分处于黑暗中。玩家可以前进、后退、转向、射击，还会遇到怪物和药箱。

生成出来的效果也比较完整：

有第一人称视角；有灯光范围；有古墓走廊和拐角；有手枪和射击效果；子弹打到墙上会冒火光；怪物可以被击中倒下；玩家可以拾取药箱；失败后可以重新开始。

这类游戏 demo 当然不能和专业游戏相比，但作为一次模型生成测试，它已经说明 MiniMax M3 具备比较强的前端创意实现能力。

它不是只会写静态页面，而是能生成具备交互、状态、视觉效果和游戏机制的浏览器应用。

八、我对 MiniMax M3 的真实判断

经过这轮测试，我对 MiniMax M3 的判断是：

它最强的地方，不是某一个 benchmark 分数，而是"长上下文 + Coding + Agentic + 多模态"组合后的真实可用性。

很多模型看起来单项能力很强，但一到真实工作流就会掉链子。

MiniMax M3 在这几个测试里表现出的特点是：

第一，它适合大型代码库分析。无论是 OpenClaw bug 修复，还是 50 多万行 Claude Code 源码分析，它都能比较快地定位关键问题。

第二，它适合长文本理解和结构化生成。完整《西游记》路线图这个测试，说明它不仅能读长文本，还能把长文本转化成可交互产品。

第三，它的视觉理解和前端生成能力比较强。 Apple Music UI 复刻说明它可以根据截图生成接近真实产品风格的前端界面。

第四，它具备不错的复杂交互生成能力。 Three.js 游戏测试说明它可以完成带状态、交互、视觉效果和玩法机制的浏览器应用。

第五，它的 API 成本优势明显。如果价格长期保持在相对较低水平，那么 MiniMax M3 很可能成为很多开发者在 Claude、GPT、Gemini 之外的重要替代选择。

九、它能不能替代 Claude？

这是大家最关心的问题。

我的判断是： 在很多任务上，MiniMax M3 已经具备替代 Claude 系列模型的潜力，但还不能简单说它全面替代 Claude。

如果你的任务是：

大型代码库阅读；长文档分析；前端 UI 生成；多模态截图转代码； Claude Code 中的工程辅助；成本敏感型 Agent 工作流；长上下文内容处理；

那么 MiniMax M3 很值得尝试。

尤其是在需要大量 tokens 的场景里，它的性价比会非常突出。

但如果你的任务极度依赖长期稳定性、复杂推理一致性、极高可靠性的代码审查，或者你已经有一套成熟的 Claude 工作流，那么我更建议把 MiniMax M3 作为"第二主力模型"来测试，而不是立刻完全替换。

更合理的做法是：

Claude 继续负责最高风险、最高价值的任务； MiniMax M3 负责大量长上下文、代码阅读、UI 生成、原型开发和成本敏感任务。

这样可以在不牺牲质量的前提下，大幅降低成本，并提升任务吞吐量。

十、结论：MiniMax M3 真正打动我的，不是参数，而是"工程感"

这次 MiniMax M3 最让我惊讶的地方，不是它有 100 万 tokens，也不是它官方 benchmark 分数多高。

真正让我觉得值得关注的是：它在真实工程任务中表现出了一种"工程感"。

它会先理解项目；会先定位 bug；会给出多个修复方案；会考虑改动面；会尽量避免不必要重构；会在大型代码库中找关键文件；会把长文本变成结构化产品；会把截图变成可运行 UI；会把创意需求变成浏览器游戏。

这已经不是传统意义上的"聊天机器人"了。

它更像是一个可以进入真实开发环境、处理复杂上下文、执行多步任务的 AI 工程助手。

所以，MiniMax M3 的意义可能不只是"又一个国产大模型发布了"。

它真正代表的是：国产模型正在从单纯拼参数、拼榜单，进入到拼真实工作流、真实工程能力、真实 Agent 可用性的阶段。

如果你正在使用 Claude Code、Cursor、OpenClaw 或其他 AI Coding 工具，那么 MiniMax M3 绝对值得接入测试。

因为它可能会成为接下来一段时间里，最值得关注的高性价比 Coding Agent 模型之一。