小米MiMo团队发布了MiMo Code------一款基于OpenCode构建的终端编程Agent,MIT开源,限时免费,三项Benchmark全面超越Claude Code + Claude Sonnet 4.6。本文深度解析其技术架构、核心能力和评测数据。
TL;DR
-
MiMo Code:小米MiMo团队基于OpenCode构建的终端编程Agent,MIT协议开源
-
限时免费:MiMo Auto模式基于MiMo-V2.5,100万token上下文,无需登录
-
三项Benchmark超越Claude Code + Claude Sonnet 4.6
-
576人双盲AB测试:长程任务(200步以上)胜率65%+
-
核心特性:无限上下文(Cycle机制)、Max Mode并行采样、Goal验证、Dynamic Workflow、自进化系统(Dream + Distill)
-
安装 :
curl -fsSL https://mimo.xiaomi.com/install | bash或npm install -g @mimo-ai/cli
目录
一、产品概述
2026年6月11日,小米MiMo团队发布了MiMo Code,一款面向开发者的终端AI编程Agent。
1.1 基本信息
| 属性 | 信息 |
|---|---|
| 产品名 | MiMo Code |
| 开发者 | 小米 MiMo 团队 |
| 技术基础 | 基于 OpenCode 构建 |
| 开源协议 | MIT |
| GitHub | https://github.com/XiaomiMiMo/MiMo-Code |
| 底层模型 | MiMo-V2.5(100万 token 上下文) |
| 定价 | 限时免费(MiMo Auto 模式) |
| 形态 | 终端 CLI Agent(TUI) |
| 支持语言 | 中文/英文双语 |
1.2 设计动机
编程Agent的基本结构是将语言模型放入运行时中循环调用:模型负责推理和决策,运行时负责管理工具、持久化状态、组装每轮输入。
短任务(10轮以内)工作良好,但随着任务轮次增加,两个问题显现:
-
上下文窗口终会耗尽:持续几十轮的工具输出、代码片段、报错日志会将其填满
-
指令遵循率随输入长度下降:有用约束和意图被大量工具输出稀释
MiMo Code围绕计算、记忆、进化三个主题展开设计,解决长程任务的三个时间尺度瓶颈:
| 时间尺度 | 瓶颈 | 对应能力 |
|---|---|---|
| 同session单轮决策质量 | 计算量不足 | Max Mode、Goal验证 |
| 同session多轮任务连续性 | 状态管理 | Cycle机制、四层记忆 |
| 跨session任务改进 | 经验提炼 | Dream、Distill自进化 |
二、技术架构:计算、记忆、进化
2.1 计算:扩展单轮推理的计算量
Max Mode(并行采样选优)
每轮并行生成 N 个候选方案(默认 N=5),每个候选独立完成推理和工具调用规划(不实际执行),由同一模型作为 judge 对比所有候选,选出最优执行。
-
使用 temperature=1,5次独立采样几乎不产出相同结果
-
SWE-Bench Pro 上相比单次采样提升 10-20%
-
代价约 4~5 倍 token 消耗
-
目前为实验性功能,需手动配置开启
Goal(独立完成度验证)
用户设定自然语言停止条件(如"所有测试通过且代码已提交"),Agent 每次尝试终止时,系统自动发起独立模型调用审查完整对话历史。
-
验证者不参与实际工作,不会对已完成部分产生认同偏差
-
死循环概率小于 0.5%
-
Max Mode 和 Goal 代表 test-time compute 的两个正交方向,可同时启用
Dynamic Workflow(大规模并行编排)
主 Agent 生成 JavaScript 脚本,在隔离沙箱中确定性执行:
-
脚本通过
agent()派出子 Agent,通过parallel()/pipeline()控制并发 -
兼容 Anthropic Dynamic Workflow 核心语义,并做了扩展
-
workflow()原语允许脚本调用其他脚本 -
每个
agent()结果同步落盘,进程中断后可从日志恢复 -
沙箱内可直接读写文件
工具调用语法
采用受限的命令行语法(非JSON/XML),因为模型在shell环境下的训练数据密度高。语法刻意受限:不支持管道、重定向、变量展开。
2.2 记忆:维持多轮任务的状态连续性
Cycle:无界会话的基本单元
运行时在到达上限之前的固定位置(checkpoint)介入:
-
每个 checkpoint 处派出独立 writer subagent,读取对话,将结构化状态写入磁盘
-
主 Agent 继续工作,writer 并发执行,互不干扰
-
当窗口接近上限,执行 rebuild:切断当前窗口,用已持久化文件重建上下文
-
Cycle 没有数量上限------逻辑会话是 cycle 的链
Checkpoint 触发时机
"Lost in the middle"效应:随输入变长,对中段材料注意力下降。提取本身需要空间:95%利用率下已无处思考。
Checkpoint 在远低于上限处触发:约 20%、45%、70%。
Writer:独立于主 Agent 的提取者
主 Agent 不维护自己的记忆。Writer 写入固定结构的 checkpoint 文件(11个字段):
| 字段 | 说明 |
|---|---|
| 当前意图 | Agent 当前在做什么 |
| 下一步动作 | 计划中的下一步 |
| 工作约束 | 需要遵守的限制 |
| 任务树 | 任务分解结构 |
| 当前工作 | 正在处理的具体内容 |
| 涉及文件 | 已修改/查看的文件 |
| 跨任务发现 | 与当前任务无关但有价值的发现 |
| 错误与修复 | 遇到的错误及解决方案 |
| 运行时状态 | 环境、依赖等状态信息 |
| 设计决策 | 做出的技术选择及原因 |
| 杂项笔记 | 其他需要记录的信息 |
Single-writer 不变量防止并发写入不一致。
四层记忆体系
| 层级 | 文件 | 生命周期 | 说明 |
|---|---|---|---|
| Session 记忆 | checkpoint.md | 当前逻辑会话内 | Cycle内的状态快照 |
| Project 记忆 | MEMORY.md | 项目级持久知识 | 跨session的知识积累 |
| Global 记忆 | - | 用户级偏好 | 跨项目生效 |
| History | SQLite | 完整轨迹 | 原始记录,不可变 |
主 Agent 对结构化文件只有读权限。唯一例外:notes.md(会话级 scratchpad,主 Agent 可 append)。
Rebuild 注入
分层 prompt 注入新窗口:
-
任务清单
-
Session checkpoint
-
最近用户消息逐字切片
-
项目记忆
-
全局记忆
-
Notes
-
Memory 文件路径索引
-
Tail reminder
注入总量控制在约 65K token 以内。
2.3 进化:从经验中持续改进
项目记忆
Markdown 格式文件,持久保存跨 session 知识。选择文件而非纯向量数据库,核心原因是可审查性。
记忆整理
-
Dream:每 7 天自动触发,合并、去重、验证路径有效性、压缩
-
Distill:每 30 天自动触发,识别反复出现的工作模式,固化为可复用的 skill、CLI 命令、自定义 Agent 或 SOP 文档
三、核心能力详解
3.1 无限上下文
通过 Cycle 机制实现逻辑上的无限上下文。每个 Cycle 是一个独立的工作单元,通过 checkpoint 持久化关键状态,rebuild 时从磁盘恢复。
与传统方案的区别:
| 方案 | 问题 | MiMo Code的解法 |
|---|---|---|
| 扩大窗口 | 成本线性增长,且"Lost in the middle"更严重 | Cycle + 提前提取 |
| 摘要压缩 | 信息丢失,不可控 | 独立Writer + 11字段结构化 |
| RAG检索 | 延迟高,召回不精确 | 直接注入文件,确定性 |
3.2 Compose 模式
一个人的专业开发团队,从想法到产品的工业级交付。
结合 Dynamic Workflow,实现:
-
自动任务拆解
-
多Agent并行执行
-
独立验证与迭代
-
断点恢复
3.3 自定义能力
MiMo Code 提供丰富的自定义选项:
| 能力 | 说明 |
|---|---|
| 主题 | 自定义TUI外观 |
| 自定义命令 | 扩展斜杠命令 |
| MCP | 接入MCP服务器 |
| Skills | 可复用的技能模块 |
| Agents | 自定义Agent配置 |
| Formatters | 代码格式化 |
| LSP | 语言服务器协议支持 |
| 自定义工具 | 扩展工具链 |
| Rules | 行为规则配置 |
四、评测数据
4.1 离线基准
MiMo Code + MiMo-V2.5-Pro 在三项评测中均优于 Claude Code + Claude Sonnet 4.6。
Benchmark 衡量的是单个仓库级问题的一次性解决能力。
4.2 真人双盲 AB 测试
| 指标 | 数据 |
|---|---|
| 参与开发者 | 576人 |
| 测试仓库 | 474个真实私有仓库 |
| AB配对数 | 1,213个有明确胜负的配对 |
结果分析:
| 执行步数 | MiMo Code胜率 | 说明 |
|---|---|---|
| ≤200步 | ~50% | 短任务打平 |
| >200步 | 65%+ | 长程任务明显更强 |
结论:MiMo Code 在短任务上与 Claude Code 打平,在长程复杂任务上显著领先。
五、安装与使用
5.1 安装
# 方式1:一键安装
curl -fsSL https://mimo.xiaomi.com/install | bash
# 方式2:npm安装
npm install -g @mimo-ai/cli
5.2 首次启动
首次启动引导选择模型接入方式:
-
MiMo Auto(推荐):限时免费,基于 MiMo-V2.5,支持 100 万 token 上下文
-
小米 MiMo 平台登录
-
从 Claude Code 配置导入
-
自定义模型(接入任意 OpenAI 兼容 API)
5.3 文档
完整文档:https://mimo.xiaomi.com/zh/mimocode/start
文档覆盖:入门、核心操作、配置、自定义、参考手册。
六、与Claude Code对比
| 对比维度 | MiMo Code | Claude Code |
|---|---|---|
| 定价 | 限时免费 | 订阅制 |
| 上下文 | 无限(Cycle机制) | 200K |
| 开源 | MIT | 闭源 |
| 长程任务 | 胜率65%+(200步以上) | 短任务更稳 |
| 动态工作流 | 兼容Anthropic + 扩展 | 原生支持 |
| 自进化 | Dream + Distill | 无 |
| 模型 | MiMo-V2.5(100万token) | Claude Sonnet 4.6 |
| 自定义 | Agent/Skill/MCP/Rules | MCP/Rules |
| 生态 | 新生态,发展中 | 成熟,工具链完整 |
七、对开发者的影响
直接装一个试试,反正免费。
MiMo Code 的 MIT 开源 + 自定义 Agent/Skill 系统,给了团队更多定制可能性。可以构建团队专属的编程Agent,固化团队的最佳实践。
八、总结
MiMo Code 的技术深度令人印象深刻。从 Cycle 机制到 Writer 子Agent,从 Dream/Distill 自进化到 Dynamic Workflow,每一个设计都有明确的技术动机。
三个关键词:免费、开源、长程能力强。
小米这次不是来"卷价格"的,是来"卷能力"的。三项 Benchmark 超越 Claude Code,576人双盲测试验证,MIT 协议全面开源。
AI 编程工具的竞争,从今天开始不一样了。
相关链接: