小米不仅造车,还造模型?309B参数全开源,深度思考完胜DeepSeek 🐒🐒🐒

我正在开发 DocFlow,它是一个完整的 AI 全栈协同文档平台。该项目融合了多个技术栈,包括基于 Tiptap 的富文本编辑器、NestJs 后端服务、AI 集成功能和实时协作。在开发过程中,我积累了丰富的实战经验,涵盖了 Tiptap 的深度定制、性能优化和协作功能的实现等核心难点。

如果你对 AI 全栈开发、Tiptap 富文本编辑器定制或 DocFlow 项目的完整技术方案感兴趣,欢迎加我微信 yunmz777 进行私聊咨询,获取详细的技术分享和最佳实践。

小米不仅造车,还造模型?

2024 年 12 月,当所有人还在关注小米汽车的时候,小米却悄然开源了一款震撼整个 AI 界的大语言模型------MiMo-V2-Flash。这款拥有 309B总参数15B激活参数 的超大规模模型,不仅在性能上达到了世界顶尖水平,更在深度思考能力上完胜 DeepSeek,重新定义了 AI 模型的效率天花板。

本文将详细介绍这款模型的技术特点、性能表现以及使用方式。

MiMo-V2-Flash

MiMo-V2-Flash 是一个混合专家(MoE)语言模型,拥有 309B总参数15B激活参数。专为高速推理和智能体工作流设计,它采用了新颖的混合注意力架构和多 Token 预测(MTP)技术,在显著降低推理成本的同时实现了最先进的性能。

1. 介绍

MiMo-V2-Flash 在长上下文建模能力和推理效率之间创造了新的平衡。主要特性包括:

  • 混合注意力架构:以 5:1 的比例交织滑动窗口注意力(SWA)和全局注意力(GA),采用激进的 128-token 窗口。通过可学习的 attention sink bias(注意力沉降偏置),在保持长上下文性能的同时,将 KV缓存 存储减少了近 6 倍。
  • 多 Token 预测(MTP):配备了轻量级 MTP 模块(每块 0.33B 参数),使用密集 FFN。这将推理期间的输出速度提升了 3 倍,并有助于加速 RL 训练中的 rollout
  • 高效预训练:使用 FP8 混合精度在 27T token 上训练,原生 32k 序列长度。上下文窗口支持最长 256k。
  • 智能体能力:后训练利用多教师在线策略蒸馏(MOPD)和大规模智能体 RL,在 SWE-Bench 和复杂推理任务上实现了卓越性能。

2. 模型下载

模型 总参数 激活参数 上下文长度 下载地址
MiMo-V2-Flash-Base 309B 15B 256k 🤗 HuggingFace
MiMo-V2-Flash 309B 15B 256k 🤗 HuggingFace

重要提示:我们还开源了 3 层 MTP 权重,以促进社区研究。

3. 评估结果

基础模型评估

MiMo-V2-Flash-Base 在标准基准测试中展现出强大的性能,超越了参数量显著更大的模型。

类别 基准测试 设置/长度 MiMo-V2-Flash Base Kimi-K2 Base DeepSeek-V3.1 Base DeepSeek-V3.2 Exp Base
参数 激活参数 / 总参数 - 15B / 309B 32B / 1043B 37B / 671B 37B / 671B
通用 BBH 3-shot 88.5 88.7 88.2 88.7
MMLU 5-shot 86.7 87.8 87.4 87.8
MMLU-Redux 5-shot 90.6 90.2 90.0 90.4
MMLU-Pro 5-shot 73.2 69.2 58.8 62.1
DROP 3-shot 84.7 83.6 86.3 86.6
ARC-Challenge 25-shot 95.9 96.2 95.6 95.5
HellaSwag 10-shot 88.5 94.6 89.2 89.4
WinoGrande 5-shot 83.8 85.3 85.9 85.6
TriviaQA 5-shot 80.3 85.1 83.5 83.9
GPQA-Diamond 5-shot 55.1 48.1 51.0 52.0
SuperGPQA 5-shot 41.1 44.7 42.3 43.6
SimpleQA 5-shot 20.6 35.3 26.3 27.0
数学 GSM8K 8-shot 92.3 92.1 91.4 91.1
MATH 4-shot 71.0 70.2 62.6 62.5
AIME 24&25 2-shot 35.3 31.6 21.6 24.8
代码 HumanEval+ 1-shot 70.7 84.8 64.6 67.7
MBPP+ 3-shot 71.4 73.8 72.2 69.8
CRUXEval-I 1-shot 67.5 74.0 62.1 63.9
CRUXEval-O 1-shot 79.1 83.5 76.4 74.9
MultiPL-E HumanEval 0-shot 59.5 60.5 45.9 45.7
MultiPL-E MBPP 0-shot 56.7 58.8 52.5 50.6
BigCodeBench 0-shot 70.1 61.7 63.0 62.9
LiveCodeBench v6 1-shot 30.8 26.3 24.8 24.9
SWE-Bench (AgentLess) 3-shot 30.8 28.2 24.8 9.4*
中文 C-Eval 5-shot 87.9 92.5 90.0 91.0
CMMLU 5-shot 87.4 90.9 88.8 88.9
C-SimpleQA 5-shot 61.5 77.6 70.9 68.0
多语言 GlobalMMLU 5-shot 76.6 80.7 81.9 82.0
INCLUDE 5-shot 71.4 75.3 77.2 77.2
长上下文 NIAH-Multi 32K 99.3 99.8 99.7 85.6
64K 99.9 100.0 98.6 85.9
128K 98.6 99.5 97.2 94.3
256K 96.7 - - -
GSM-Infinite Hard 16K 37.7 34.6 41.5 50.4
32K 33.7 26.1 38.8 45.2
64K 31.5 16.0 34.7 32.6
128K 29.0 8.8 28.7 25.7
  • 表示模型可能无法遵循提示或格式。

后训练模型评估

通过采用 MOPD 和智能体 RL 的后训练范式,模型在推理和智能体性能上达到了最先进水平。

基准测试 MiMo-V2 Flash Kimi-K2 Thinking DeepSeek-V3.2 Thinking Gemini-3.0 Pro Claude Sonnet 4.5 GPT-5 High
推理
MMLU-Pro 84.9 84.6 85.0 90.1 88.2 87.5
GPQA-Diamond 83.7 84.5 82.4 91.9 83.4 85.7
HLE (无工具) 22.1 23.9 25.1 37.5 13.7 26.3
AIME 2025 94.1 94.5 93.1 95.0 87.0 94.6
HMMT Feb. 2025 84.4 89.4 92.5 97.5 79.2 88.3
LiveCodeBench-v6 80.6 83.1 83.3 90.7 64.0 84.5
通用写作
Arena-Hard (困难提示) 54.1 71.9 53.4 72.6 63.3 71.9
Arena-Hard (创意写作) 86.2 80.1 88.8 93.6 76.7 92.2
长上下文
LongBench V2 60.6 45.1 58.4 65.6 61.8 -
MRCR 45.7 44.2 55.5 89.7 55.4 -
代码智能体
SWE-Bench Verified 73.4 71.3 73.1 76.2 77.2 74.9
SWE-Bench Multilingual 71.7 61.1 70.2 - 68.0 55.3
Terminal-Bench Hard 30.5 30.6 35.4 39.0 33.3 30.5
Terminal-Bench 2.0 38.5 35.7 46.4 54.2 42.8 35.2
通用智能体
BrowseComp 45.4 - 51.4 - 24.1 54.9
BrowseComp (带上下文管理) 58.3 60.2 67.6 59.2 - -
τ²-Bench 80.3 74.3 80.3 85.4 84.7 80.2

4. 模型架构

混合滑动窗口注意力

MiMo-V2-Flash 通过交织局部滑动窗口注意力(SWA)和全局注意力(GA)来解决长上下文的平方复杂度问题。

  • 配置:M=8 个混合块的堆叠。每个块包含 N=5 个 SWA 层,之后是 1 个 GA 层。
  • 效率:SWA 层使用 128 个 token 的窗口大小,显著减少了 KV缓存
  • 沉降偏置:应用可学习的注意力沉降偏置,即使在激进的窗口大小下也能保持性能。

轻量级多 Token 预测(MTP)

与传统的推测解码不同,我们的 MTP 模块原生集成用于训练和推理。

  • 结构:使用密集 FFN(而非 MoE)和 SWA(而非 GA)来保持较低的参数量(每块 0.33B)。
  • 性能:促进自推测解码,将生成速度提升 3 倍,并缓解小批量 RL 训练期间的 GPU 空闲问题。

5. 后训练技术亮点

MiMo-V2-Flash 利用专门设计的后训练流程,通过创新的蒸馏和强化学习策略最大化推理和智能体能力。

5.1 多教师在线策略蒸馏(MOPD)

我们引入了 多教师在线策略蒸馏(MOPD),这是一种将知识蒸馏重新定义为强化学习过程的新范式。

  • 密集 Token 级指导:与依赖稀疏序列级反馈的方法不同,MOPD 利用领域特定的专家模型(教师)在每个 token 位置提供监督。
  • 在线策略优化:学生模型从自己生成的响应中学习,而不是从固定数据集学习。这消除了暴露偏差,并确保更小、更稳定的梯度更新。
  • 固有的奖励鲁棒性:奖励源于学生和教师之间的分布差异,使该过程天然抵抗奖励黑客攻击。

5.2 扩展智能体强化学习

我们大幅扩展了智能体训练环境,以提高智能和泛化能力。

  • 大规模代码智能体环境:我们利用真实世界的 GitHub 问题创建了超过 100,000 个可验证任务。我们的自动化流程维护着一个能够运行超过 10,000 个并发 pod 的 Kubernetes 集群,环境设置成功率达 70%。
  • Web 开发的多模态验证器:对于 Web 开发任务,我们采用基于视觉的验证器,通过录制的视频而非静态截图来评估代码执行。这减少了视觉幻觉并确保功能正确性。
  • 跨域泛化:我们的实验表明,在代码智能体上的大规模 RL 训练能有效泛化到其他领域,提升数学和通用智能体任务的性能。

5.3 先进的强化学习基础设施

为了支持大规模 MoE 模型的高吞吐量 RL 训练,我们在 SGLangMegatron-LM 基础上实现了多项基础设施优化。

  • Rollout 路由重放(R3):解决 MoE 路由在推理和训练之间的数值精度不一致问题。R3 在训练阶段重用 rollout 中的确切路由专家,以可忽略的开销确保一致性。
  • 请求级前缀缓存:在多轮智能体训练中,此缓存存储先前轮次的 KV 状态和路由专家。它避免了重新计算,并确保跨轮次的采样一致性。
  • 细粒度数据调度器:我们扩展了 rollout 引擎以调度细粒度序列而非微批次。结合部分 rollout,这显著减少了长尾任务导致的 GPU 空闲。
  • 工具箱和工具管理器:使用 Ray actor 池的两层设计来处理资源争用。它消除了工具执行的冷启动延迟,并将任务逻辑与系统策略隔离。

6. 推理与部署

MiMo-V2-Flash 支持 FP8 混合精度推理。我们推荐使用 SGLang 以获得最佳性能。

使用建议:我们推荐将采样参数设置为 temperature=0.8, top_p=0.95

使用 SGLang 快速开始

bash 复制代码
pip install sglang

# 启动服务器
python3 -m sglang.launch_server \
        --model-path XiaomiMiMo/MiMo-V2-Flash \
        --served-model-name mimo-v2-flash \
        --pp-size 1 \
        --dp-size 2 \
        --enable-dp-attention \
        --tp-size 8 \
        --moe-a2a-backend deepep \
        --page-size 1 \
        --host 0.0.0.0 \
        --port 9001 \
        --trust-remote-code \
        --mem-fraction-static 0.75 \
        --max-running-requests 128 \
        --chunked-prefill-size 16384 \
        --reasoning-parser qwen3 \
        --tool-call-parser mimo \
        --context-length 262144 \
        --attention-backend fa3 \
        --speculative-algorithm EAGLE \
        --speculative-num-steps 3 \
        --speculative-eagle-topk 1 \
        --speculative-num-draft-tokens 4 \
        --enable-mtp

# 发送请求
curl -i http://localhost:9001/v1/chat/completions \
    -H 'Content-Type:application/json' \
    -d  '{
            "messages" : [{
                "role": "user",
                "content": "Nice to meet you MiMo"
            }],
            "model": "mimo-v2-flash",
            "max_tokens": 4096,
            "temperature": 0.8,
            "top_p": 0.95,
            "stream": true,
            "chat_template_kwargs": {
                "enable_thinking": true
            }
        }'

注意事项

重要提示:在带有多轮工具调用的思考模式中,模型会在 tool_calls 旁边返回一个 reasoning_content 字段。要继续对话,用户必须在每个后续请求的 messages 数组中保留所有历史 reasoning_content
重要提示:强烈推荐使用以下系统提示,请从英文和中文版本中选择。

英文版本

plaintext 复制代码
You are MiMo, an AI assistant developed by Xiaomi.

Today's date: {date} {week}. Your knowledge cutoff date is December 2024.

中文版本

plaintext 复制代码
你是MiMo(中文名称也是MiMo),是小米公司研发的AI智能助手。

今天的日期:{date} {week},你的知识截止日期是2024年12月。

7. 引用

如果您觉得我们的工作有帮助,请引用我们的技术报告:

bibtex 复制代码
@misc{mimo2025flash,
  title={MiMo-V2-Flash Technical Report},
  author={LLM-Core Xiaomi},
  year={2025},
  url={https://github.com/XiaomiMiMo/MiMo-V2-Flash/paper.pdf}
}

8. 相关链接

9. 结论

MiMo-V2-Flash 不仅在基准测试中展现出卓越的性能,更在实际应用场景中展现出独特的优势。特别是在深度思考能力方面,通过对比测试可以明显看出,在基本相同的输出结果质量下,小米 MiMo-V2-Flash 的深度思考功能相比 DeepSeek 具有显著优势。

这一优势体现在多个方面:

  • 思考深度MiMo-V2-Flash 能够进行更深入、更系统的思考,展现出更强的逻辑推理能力
  • 思考效率:在保证输出质量的前提下,能够更快速地完成深度思考过程
  • 思考质量:思考过程更加结构化、条理清晰,能够更好地展现推理路径

这种深度思考能力的优势,使得 MiMo-V2-Flash 在复杂推理任务、学术研究、代码分析等需要深度思考的场景中,能够为用户提供更高质量、更可靠的智能服务。

相关推荐
CNRio2 小时前
从“手搓Prompt“到“物理世界提示词“:Looki L1如何重塑AI交互范式
人工智能·prompt·交互
苏打水com2 小时前
第十六篇:Day46-48 前端安全进阶——从“漏洞防范”到“安全体系”(对标职场“攻防实战”需求)
前端·javascript·css·vue.js·html
5C242 小时前
从思想到实践:前端工程化体系与 Webpack 构建架构深度解析
前端·前端工程化
马卡巴卡2 小时前
SpringBoot集成Spring Statemachine(状态机)实战教程
后端
咕噜企业分发小米2 小时前
如何平衡服务器内存使用率和系统稳定性?
java·服务器·前端
前端无涯2 小时前
react组件(2)---State 与生命周期
前端·react.js
GoldenPlayer2 小时前
Web-Tech:CORS的触发机制
前端
AY呀2 小时前
Vite:现代前端构建工具的革命与实战指南
前端·vue.js·vite
爬山算法2 小时前
Netty(13)Netty中的事件和回调机制
java·前端·算法