小米MiMo Code深度解析:基于OpenCode的长程编程Agent,三项Benchmark超越Claude Code

小米MiMo团队发布了MiMo Code------一款基于OpenCode构建的终端编程Agent,MIT开源,限时免费,三项Benchmark全面超越Claude Code + Claude Sonnet 4.6。本文深度解析其技术架构、核心能力和评测数据。


TL;DR

  • MiMo Code:小米MiMo团队基于OpenCode构建的终端编程Agent,MIT协议开源

  • 限时免费:MiMo Auto模式基于MiMo-V2.5,100万token上下文,无需登录

  • 三项Benchmark超越Claude Code + Claude Sonnet 4.6

  • 576人双盲AB测试:长程任务(200步以上)胜率65%+

  • 核心特性:无限上下文(Cycle机制)、Max Mode并行采样、Goal验证、Dynamic Workflow、自进化系统(Dream + Distill)

  • 安装curl -fsSL https://mimo.xiaomi.com/install | bashnpm install -g @mimo-ai/cli


目录

  1. 产品概述

  2. 技术架构:计算、记忆、进化

  3. 核心能力详解

  4. 评测数据

  5. 安装与使用

  6. [与Claude Code对比](#与Claude Code对比)

  7. 对开发者的影响

  8. 总结


一、产品概述

2026年6月11日,小米MiMo团队发布了MiMo Code,一款面向开发者的终端AI编程Agent。

1.1 基本信息

属性 信息
产品名 MiMo Code
开发者 小米 MiMo 团队
技术基础 基于 OpenCode 构建
开源协议 MIT
GitHub https://github.com/XiaomiMiMo/MiMo-Code
底层模型 MiMo-V2.5(100万 token 上下文)
定价 限时免费(MiMo Auto 模式)
形态 终端 CLI Agent(TUI)
支持语言 中文/英文双语

1.2 设计动机

编程Agent的基本结构是将语言模型放入运行时中循环调用:模型负责推理和决策,运行时负责管理工具、持久化状态、组装每轮输入。

短任务(10轮以内)工作良好,但随着任务轮次增加,两个问题显现:

  1. 上下文窗口终会耗尽:持续几十轮的工具输出、代码片段、报错日志会将其填满

  2. 指令遵循率随输入长度下降:有用约束和意图被大量工具输出稀释

MiMo Code围绕计算、记忆、进化三个主题展开设计,解决长程任务的三个时间尺度瓶颈:

时间尺度 瓶颈 对应能力
同session单轮决策质量 计算量不足 Max Mode、Goal验证
同session多轮任务连续性 状态管理 Cycle机制、四层记忆
跨session任务改进 经验提炼 Dream、Distill自进化

二、技术架构:计算、记忆、进化

2.1 计算:扩展单轮推理的计算量

Max Mode(并行采样选优)

每轮并行生成 N 个候选方案(默认 N=5),每个候选独立完成推理和工具调用规划(不实际执行),由同一模型作为 judge 对比所有候选,选出最优执行。

  • 使用 temperature=1,5次独立采样几乎不产出相同结果

  • SWE-Bench Pro 上相比单次采样提升 10-20%

  • 代价约 4~5 倍 token 消耗

  • 目前为实验性功能,需手动配置开启

Goal(独立完成度验证)

用户设定自然语言停止条件(如"所有测试通过且代码已提交"),Agent 每次尝试终止时,系统自动发起独立模型调用审查完整对话历史。

  • 验证者不参与实际工作,不会对已完成部分产生认同偏差

  • 死循环概率小于 0.5%

  • Max Mode 和 Goal 代表 test-time compute 的两个正交方向,可同时启用

Dynamic Workflow(大规模并行编排)

主 Agent 生成 JavaScript 脚本,在隔离沙箱中确定性执行:

  • 脚本通过 agent() 派出子 Agent,通过 parallel() / pipeline() 控制并发

  • 兼容 Anthropic Dynamic Workflow 核心语义,并做了扩展

  • workflow() 原语允许脚本调用其他脚本

  • 每个 agent() 结果同步落盘,进程中断后可从日志恢复

  • 沙箱内可直接读写文件

工具调用语法

采用受限的命令行语法(非JSON/XML),因为模型在shell环境下的训练数据密度高。语法刻意受限:不支持管道、重定向、变量展开。

2.2 记忆:维持多轮任务的状态连续性

Cycle:无界会话的基本单元

运行时在到达上限之前的固定位置(checkpoint)介入:

  • 每个 checkpoint 处派出独立 writer subagent,读取对话,将结构化状态写入磁盘

  • 主 Agent 继续工作,writer 并发执行,互不干扰

  • 当窗口接近上限,执行 rebuild:切断当前窗口,用已持久化文件重建上下文

  • Cycle 没有数量上限------逻辑会话是 cycle 的链

Checkpoint 触发时机

"Lost in the middle"效应:随输入变长,对中段材料注意力下降。提取本身需要空间:95%利用率下已无处思考。

Checkpoint 在远低于上限处触发:约 20%、45%、70%。

Writer:独立于主 Agent 的提取者

主 Agent 不维护自己的记忆。Writer 写入固定结构的 checkpoint 文件(11个字段):

字段 说明
当前意图 Agent 当前在做什么
下一步动作 计划中的下一步
工作约束 需要遵守的限制
任务树 任务分解结构
当前工作 正在处理的具体内容
涉及文件 已修改/查看的文件
跨任务发现 与当前任务无关但有价值的发现
错误与修复 遇到的错误及解决方案
运行时状态 环境、依赖等状态信息
设计决策 做出的技术选择及原因
杂项笔记 其他需要记录的信息

Single-writer 不变量防止并发写入不一致。

四层记忆体系
层级 文件 生命周期 说明
Session 记忆 checkpoint.md 当前逻辑会话内 Cycle内的状态快照
Project 记忆 MEMORY.md 项目级持久知识 跨session的知识积累
Global 记忆 - 用户级偏好 跨项目生效
History SQLite 完整轨迹 原始记录,不可变

主 Agent 对结构化文件只有读权限。唯一例外:notes.md(会话级 scratchpad,主 Agent 可 append)。

Rebuild 注入

分层 prompt 注入新窗口:

  1. 任务清单

  2. Session checkpoint

  3. 最近用户消息逐字切片

  4. 项目记忆

  5. 全局记忆

  6. Notes

  7. Memory 文件路径索引

  8. Tail reminder

注入总量控制在约 65K token 以内。

2.3 进化:从经验中持续改进

项目记忆

Markdown 格式文件,持久保存跨 session 知识。选择文件而非纯向量数据库,核心原因是可审查性

记忆整理
  • Dream:每 7 天自动触发,合并、去重、验证路径有效性、压缩

  • Distill:每 30 天自动触发,识别反复出现的工作模式,固化为可复用的 skill、CLI 命令、自定义 Agent 或 SOP 文档


三、核心能力详解

3.1 无限上下文

通过 Cycle 机制实现逻辑上的无限上下文。每个 Cycle 是一个独立的工作单元,通过 checkpoint 持久化关键状态,rebuild 时从磁盘恢复。

与传统方案的区别

方案 问题 MiMo Code的解法
扩大窗口 成本线性增长,且"Lost in the middle"更严重 Cycle + 提前提取
摘要压缩 信息丢失,不可控 独立Writer + 11字段结构化
RAG检索 延迟高,召回不精确 直接注入文件,确定性

3.2 Compose 模式

一个人的专业开发团队,从想法到产品的工业级交付。

结合 Dynamic Workflow,实现:

  • 自动任务拆解

  • 多Agent并行执行

  • 独立验证与迭代

  • 断点恢复

3.3 自定义能力

MiMo Code 提供丰富的自定义选项:

能力 说明
主题 自定义TUI外观
自定义命令 扩展斜杠命令
MCP 接入MCP服务器
Skills 可复用的技能模块
Agents 自定义Agent配置
Formatters 代码格式化
LSP 语言服务器协议支持
自定义工具 扩展工具链
Rules 行为规则配置

四、评测数据

4.1 离线基准

MiMo Code + MiMo-V2.5-Pro 在三项评测中均优于 Claude Code + Claude Sonnet 4.6。

Benchmark 衡量的是单个仓库级问题的一次性解决能力。

4.2 真人双盲 AB 测试

指标 数据
参与开发者 576人
测试仓库 474个真实私有仓库
AB配对数 1,213个有明确胜负的配对

结果分析:

执行步数 MiMo Code胜率 说明
≤200步 ~50% 短任务打平
>200步 65%+ 长程任务明显更强

结论:MiMo Code 在短任务上与 Claude Code 打平,在长程复杂任务上显著领先。


五、安装与使用

5.1 安装

复制代码
# 方式1:一键安装
curl -fsSL https://mimo.xiaomi.com/install | bash

# 方式2:npm安装
npm install -g @mimo-ai/cli

5.2 首次启动

首次启动引导选择模型接入方式:

  1. MiMo Auto(推荐):限时免费,基于 MiMo-V2.5,支持 100 万 token 上下文

  2. 小米 MiMo 平台登录

  3. 从 Claude Code 配置导入

  4. 自定义模型(接入任意 OpenAI 兼容 API)

5.3 文档

完整文档:https://mimo.xiaomi.com/zh/mimocode/start

文档覆盖:入门、核心操作、配置、自定义、参考手册。


六、与Claude Code对比

对比维度 MiMo Code Claude Code
定价 限时免费 订阅制
上下文 无限(Cycle机制) 200K
开源 MIT 闭源
长程任务 胜率65%+(200步以上) 短任务更稳
动态工作流 兼容Anthropic + 扩展 原生支持
自进化 Dream + Distill
模型 MiMo-V2.5(100万token) Claude Sonnet 4.6
自定义 Agent/Skill/MCP/Rules MCP/Rules
生态 新生态,发展中 成熟,工具链完整

七、对开发者的影响

直接装一个试试,反正免费。

MiMo Code 的 MIT 开源 + 自定义 Agent/Skill 系统,给了团队更多定制可能性。可以构建团队专属的编程Agent,固化团队的最佳实践。


八、总结

MiMo Code 的技术深度令人印象深刻。从 Cycle 机制到 Writer 子Agent,从 Dream/Distill 自进化到 Dynamic Workflow,每一个设计都有明确的技术动机。

三个关键词:免费、开源、长程能力强。

小米这次不是来"卷价格"的,是来"卷能力"的。三项 Benchmark 超越 Claude Code,576人双盲测试验证,MIT 协议全面开源。

AI 编程工具的竞争,从今天开始不一样了。


相关链接:

相关推荐
乐迪信息6 小时前
乐迪信息:港口船舶偏航难监管,AI智能监测实时发出预警提醒
大数据·人工智能·安全·计算机视觉·目标跟踪
捧 花6 小时前
从链式流程到复杂AI工作流的落地实战
人工智能
FL16238631296 小时前
遥感图像地块类型土地类型识别分割数据集labelme格式5704张6类别
人工智能
冬奇Lab6 小时前
一天一个开源项目(第131篇):Career-Ops - 基于 Claude Code 的 AI 招聘指挥中心
人工智能·求职
来自于狂人6 小时前
第一部分:破除迷信(入门篇)第1章 Agent不是黑科技
人工智能·科技
王小王-1236 小时前
基于深度学习的个性化音乐推荐系统的设计与开发
人工智能·深度学习·mysql·vue·推荐算法·个性化音乐推荐系统·音乐预测
ʜᴇɴʀʏ6 小时前
SSVOD 基础知识
人工智能·目标检测·计算机视觉
Esaka_Forever6 小时前
Lovable 无代码 AI 应用 / 网页全自动生成智能体平台
人工智能
现代野蛮人6 小时前
【深度学习】 —— 几种优化器对比实验
人工智能·深度学习·分类·tensorflow
陈天伟教授6 小时前
图解人工智能(57)人工智能应用-围棋国手
人工智能·语音识别