
2026年3月19日,小米在凌晨悄然发布三款自研大模型,MiMo-V2-Pro 、MiMo-V2-Omni 和MiMo-V2-TTS,首次完整覆盖了从核心推理、多模态感知到情感语音合成的AI能力栈。这不仅是三款产品的发布,更是小米为"AI智能体时代"交出的一份完整答卷,标志着AI正从"回答问题"的工具,迈向"完成任务"的合作伙伴。
🚀 三剑合璧:一个完整的智能体闭环
小米MiMo-V2系列并非孤立的产品,而是一个精心设计的"全家桶"解决方案。它们各自分工明确,又协同工作,共同构成了一个智能体从感知世界、思考决策到表达输出的完整闭环。

🎯 MiMo-V2-Pro:万亿参数的"最强大脑"
作为旗舰推理底座,MiMo-V2-Pro是智能体的核心"大脑"。它采用创新的混合注意力架构,总参数量超过1万亿,但每次推理仅激活420亿参数,在保证强大能力的同时实现了高效推理。其最大亮点是支持100万token的超长上下文,足以处理一整本书的内容,为复杂、长程的Agent任务规划提供了坚实基础。
在权威评测机构Artificial Analysis的全球大模型综合智能排行榜上,MiMo-V2-Pro位列全球第八、国内第二。更关键的是,其API定价极具竞争力,仅为同类顶级闭源模型的五分之一左右,让高性能AI推理变得触手可及。
👁️ MiMo-V2-Omni:能看会听的"全感知之眼"
如果说Pro是大脑,那么Omni就是智能体的眼睛和耳朵。它专为复杂的多模态交互与执行场景设计,其核心能力在于原生一体化的多模态理解 ,而非事后拼接。
- 音频理解:不仅能识别环境声、分离多人对话,更能理解超过10小时的连续长音频,综合表现超越Gemini 3 Pro。
- 图像理解:在多学科视觉推理与复杂图表分析上,能力已超越Claude Opus 4.6,逼近Gemini 3 Pro水平。
- 视频理解:支持原生音视频联合输入,具备情境感知与未来推理能力,能预测视频中接下来可能发生的事。
这意味着,MiMo-V2-Omni能让AI真正"看懂"世界,并基于理解做出行动决策,是构建自动驾驶视觉大脑、进行深度文艺分析或处理长时媒体内容的理想选择。
🗣️ MiMo-V2-TTS:有温度会唱歌的"灵魂之声"
为了让智能体不再冷冰冰,小米带来了MiMo-V2-TTS。它基于上亿小时语音数据训练,能实现从整体到局部的多层次语音风格控制。用户可以用自然语言指令设定整体基调,甚至微调句内某个短语的情感,实现语气自然转折。
更接地气的是,它原生支持多种方言,包括东北话、四川话、粤语等,还能进行角色扮演式的风格化演绎,甚至完成高质量的歌声合成。这标志着AI语音合成从"能说"迈向了"会说、会演、会唱"的新阶段,为智能体注入了独特的"人味"。
📊 性能与定价:重新定义性价比边界
小米此次发布不仅在技术上亮剑,更在商业策略上展现了强大的侵略性。MiMo-V2系列以极高的性价比,试图重塑AI大模型市场的竞争格局。
| 模型 | 输入 (每百万token) | 输出 (每百万token) | 缓存读取 |
|---|---|---|---|
| MiMo-V2-Pro (≤256K) | $5.00 | $.00 | $0.20 |
| MiMo-V2-Pro (256K-1M) | \undefined.00 | $0.40 | |
| Claude Sonnet 4.6 | \undefined.00 | $0.30 | |
| Claude Opus 4.6 | \undefined.00 | $0.50 |
*数据来源:第三方评测与公开信息整理
据第三方评测,运行完整的智能体任务,MiMo-V2-Pro的成本仅为348美元,远低于GPT-5.2的2304美元和Claude Opus 4.6的2486美元。这种"顶级性能,亲民价格"的策略,无疑将对依赖高定价的厂商构成巨大压力。
🎯 战略野心:不止于模型,构建生态护城河
小米深夜"三连发"的背后,是其清晰的AI战略布局。这不仅仅是三款模型的发布,更是其"人车家全生态"战略的深度推进。
小米最大的优势在于其庞大的硬件生态。MiMo-V2系列未来将不仅仅是云API,更可能成为手机、汽车、IoT设备的端侧"大脑",这种软硬一体化的闭环是纯软件厂商难以复制的护城河。
模型发布后,第一时间接入了OpenClaw、Claude Code、WPS灵犀等主流Agent框架和生产力工具。这表明小米追求的不是"刷榜",而是让模型快速进入开发者的真实工作流,加速应用落地。
MiMo-V2全家桶的终极目标,是打造一个能感知、思考、表达并执行复杂任务的真正智能体(Agent),而不仅仅是聊天机器人。这代表了AI从被动响应到主动解决问题的范式转变。
💡 结语
小米MiMo-V2全家桶的发布,像一颗投入湖面的石子,激起的涟漪远超产品本身。它宣告了一个趋势:AI竞争的焦点,正从单一的模型能力比拼,转向完整的生态落地与极致的成本效率。
正如小米AI负责人傅里·罗(Fuli Luo)所言,他们的目标是聚焦于智能的"行动空间",试图完全跨越对话范式。当其他模型还在追问"你能回答什么"时,小米已经将问题升级为"你能完成什么"。
这套组合拳,不仅为开发者提供了从感知、认知到表达的一站式Agent解决方案,更以颠覆性的定价,试图让顶级AI能力变得普惠。未来的AI战场,或许将不再只是实验室里的分数竞赛,而是深入千家万户、融入每一条工作流的生态之战。小米的这次"安静突袭",或许正是这场战役的一个重要转折点。