中国开源大模型三国杀:GLM-5、MiniMax-M2.1、Kimi-K2.5,谁才是技术选型的最优解?

Talk is cheap, let's explore。无界探索,有术而行。

中国开源大模型三国杀

中国开源大模型三国杀

今天,我在帮团队做技术选型时遇到了一个难题。

项目需要使用 OpenClaw,聊天工具初步选择了飞书,但是模型这块让我犯难了,按理说应该用地表最强 Claude,退而求其次也是 GPT-5.3。但是,团队倾向于用国产开源方案:毕竟数据安全是硬指标,而且三个主流选手各有各的说法:

GLM-5 说自己编程能力对标 Claude Opus 4.5;MiniMax-M2.1 拿出 VIBE Benchmark 数据,Web 开发 91.5 分;Kimi-K2.5 则强调原生多模态和 Agent Swarm 架构。

说实话,光看各家宣传材料,很难判断谁更适合我们的场景。所以我花了一周时间,把这三个模型的官方文档、技术报告、测评数据翻了个遍,还真的发现了一些有意思的东西。

这篇文章,就是我想分享给同样在做技术选型的你的参考答案。

三大模型核心参数:先看硬指标

先说结论:这三个模型走的技术路线完全不同。

参数维度 GLM-5 MiniMax-M2.1 Kimi-K2.5
开发团队 智谱AI MiniMax Moonshot AI
架构 MoE 未公开 MoE
总参数 744B 未公开 1T
激活参数 40B 未公开 32B
预训练数据 28.5T tokens 未公开 15T(视觉+文本)
上下文窗口 200K 未公开 256K
最大输出 128K 未公开 64K+
输入模态 文本 文本 文本+图像+视频
许可证 商用可谈 开源可用 Modified MIT

三大模型参数对比

三大模型参数对比

几个值得关注的点:

GLM-5 是参数最激进的------744B 总参数,40B 激活,预训练用了 28.5T tokens。这个数据量比很多闭源模型都大。它还首次集成了 DeepSeek 的稀疏注意力机制,号称能降低部署成本。

Kimi-K2.5 的架构设计很有意思------1T 参数,384 个专家,每个 token 只激活 8 个专家。更关键的是,它是三个模型中唯一支持原生多模态的,在 15 万亿混合视觉和文本 tokens 上做了预训练。

MiniMax-M2.1 比较神秘,官方没公开具体的参数规模,但从它的定位------"专为真实世界复杂任务打造"------来看,应该是针对 Agent 场景做了大量优化。

老实说,参数数字只是参考,真正重要的是实际表现。下面我分两个核心场景来说说实测对比。

编程能力深度对比:谁能真正帮你写代码?

我们团队的需求很明确:通过 openclaw 网关接入 AI 编程能力,让它能处理前端重构、后端调试、长程任务这几种场景。

先看基准测试数据:

基准测试 GLM-5 MiniMax-M2.1 Kimi-K2.5 备注
SWE-bench Verified 77.8 ~70+ 76.8 真实代码问题修复
Terminal Bench 2.0 56.2 - 50.8 终端命令执行
VIBE-Web - 91.5 - Web 开发专项
VIBE-Android - 89.7 - 原生 Android
LiveCodeBench (v6) - - 85.0 实时编程测试
SWE-Bench Multilingual - - 73.0 多语言编程

编程能力对比

编程能力对比

GLM-5 在 SWE-bench Verified 上拿了 77.8 分,Terminal Bench 2.0 是 56.2,两个都是开源 SOTA。官方的说法是"真实编程场景使用体感逼近 Claude Opus 4.5"。

我注意到一个细节:GLM-5 的内部评估显示,它在后端重构深度调试场景下,能以极少的人工干预自主完成任务。这个对我们这种需要长期维护老项目的团队来说,价值很大。

MiniMax-M2.1 的强项在多语言编程。它系统性地增强了 Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript、JavaScript 等语言能力。VIBE Benchmark 显示,它在 Web 开发(91.5)和 Android 开发(89.7)上表现突出。

有个数据挺有意思:MiniMax 官方拿它和 Claude Sonnet 4.5 做对比,在测试用例生成代码性能优化代码审查指令遵循这四个维度上,都显示"提升"。

Kimi-K2.5 的独特优势在视觉编程。它能从 UI 设计稿直接生成代码------这个能力在我们团队的前端开发中特别实用。SWE-Bench Multilingual 73.0 的分数,说明它的多语言能力也不弱。

我的判断

如果你的场景是全栈 Web/App 开发 ,MiniMax-M2.1 的 VIBE 数据很亮眼;如果重点是后端重构和长期维护 ,GLM-5 的 SWE-bench 表现更稳;如果经常需要从设计稿生成代码,Kimi-K2.5 的视觉编程能力会是加分项。

智能体能力对比:谁能真正执行复杂任务?

openclaw 作为一个多渠道 AI Agent 网关,对模型的 Agent 能力要求很高。我们希望模型能处理长程任务、调用工具、协调多个子任务。

先看测试数据:

基准测试/能力维度 GLM-5 MiniMax-M2.1 Kimi-K2.5
BrowseComp 开源 SOTA - 78.4(Agent Swarm)
MCP-Atlas 开源 SOTA - -
τ²-Bench 开源 SOTA - -
Agent Swarm - - 延迟降低 4.5 倍
框架兼容性 最强

Agent能力对比

Agent能力对比

GLM-5 在 Agent 基准测试上表现抢眼------BrowseComp(联网检索)、MCP-Atlas(工具调用)、τ²-Bench(复杂多工具场景)都是开源 SOTA。官方强调它在长程任务中能保持目标一致性,这对我们的场景很重要。

MiniMax-M2.1 的亮点在工具泛化能力。官方列出了它在 6 个主流 Agent 框架中的兼容性:

框架 兼容性
Claude Code ✅ 稳定
Cline ✅ 稳定(平台热门模型)
Droid (Factory AI) ✅ 稳定
Kilo Code ✅ 稳定
Roo Code ✅ 稳定
BlackBox ✅ 稳定

Cline CEO 的评价很有代表性:"Minimax M2 系列在 Cline 平台上迅速成为热门模型之一。"

MiniMax 还有一个Digital Employee(数字员工)功能,能通过文本命令控制鼠标点击和键盘输入,实现办公自动化。这个能力如果用在 openclaw 上,可以让 Agent 直接操作桌面软件。

Kimi-K2.5 的创新点在Agent Swarm(代理群)架构。它的思路是:把复杂任务分解为异构子问题,动态实例化领域特定代理,并行执行子任务。

数据很能说明问题:

  • BrowseComp 单代理:60.6
  • BrowseComp 单代理 + 上下文管理:74.9
  • BrowseComp Agent Swarm:78.4

更关键的是,Agent Swarm 把延迟降低到了单代理基线的 4.5 倍。这意味着复杂任务的响应速度会明显提升。

我的判断

如果你的场景是单代理长程任务 (比如持续监控、日志分析),GLM-5 的目标一致性更强;如果需要跨框架迁移 (比如先在 Claude Code 测试,再迁移到 Cline),MiniMax-M2.1 的兼容性最好;如果任务是高并发复杂任务(比如同时处理多个用户的请求),Kimi-K2.5 的 Agent Swarm 架构会更有优势。

openclaw 平台选型实战:代码怎么写?

说了这么多理论,来看点实际的。openclaw 是一个自托管 AI Agent 网关,支持 WhatsApp、Telegram、Discord、iMessage、Signal 、飞书、企业微信、钉钉等多个渠道。

安装和启动# macOS/Linux** curl -fsSL https://openclaw.ai/install.sh | bash # Windows (PowerShell) iwr -useb https://openclaw.ai/install.ps1 | iex # 安装并配置 openclaw onboard --install-daemon # 检查 Gateway 状态 openclaw gateway status # 打开控制面板 openclaw dashboard
配置多个模型代理

openclaw 支持配置多个隔离的代理,每个代理可以使用不同的模型:{ agents: { list: [ { id: "glm5-coding", name: "GLM-5 编程助手", workspace: "~/.openclaw/workspace-glm5", model: "zhipu/glm-5", }, { id: "minimax-fullstack", name: "MiniMax 全栈开发", workspace: "~/.openclaw/workspace-minimax", model: "minimax/m2.1", }, { id: "kimi-agent", name: "Kimi 智能体", workspace: "~/.openclaw/workspace-kimi", model: "moonshot/kimi-k2.5", }, ], }, bindings: [ // WhatsApp 用 GLM-5 处理编程问题 { agentId: "glm5-coding", match: { channel: "whatsapp" } }, // Telegram 用 MiniMax 处理全栈开发 { agentId: "minimax-fullstack", match: { channel: "telegram" } }, // Discord 用 Kimi 处理复杂任务 { agentId: "kimi-agent", match: { channel: "discord" } }, ], }

openclaw架构图

openclaw架构图

不同场景选型建议:我的推荐

说了这么多,最后给你一个明确的选型建议。我按场景来分:

场景 1:Agentic Coding(智能编程)
优先级 模型 理由
🥇 GLM-5 编程能力开源 SOTA,真实场景体感逼近 Claude Opus 4.5
🥈 MiniMax-M2.1 多语言编程强,框架兼容性好
🥉 Kimi-K2.5 视觉编程独特,Agent Swarm 提升效率

我的推荐:如果你的团队主要做后端开发和代码重构,GLM-5 是更稳的选择。

场景 2:Web/App 全栈开发
优先级 模型 理由
🥇 MiniMax-M2.1 VIBE-Web 91.5,Android 89.7,美学表达强
🥈 Kimi-K2.5 视觉编程能力强,从设计稿生成代码
🥉 GLM-5 前后端开发能力稳定

我的推荐:如果你的项目涉及大量前端和移动端开发,MiniMax-M2.1 的 VIBE 数据更有说服力。

场景 3:智能体任务执行
优先级 模型 理由
🥇 Kimi-K2.5 Agent Swarm 延迟降低 4.5 倍,并行任务执行
🥈 GLM-5 长程 Agent 任务开源 SOTA,目标一致性强
🥉 MiniMax-M2.1 Digital Employee 办公自动化,工具泛化能力强

我的推荐:如果你的场景是高并发、多任务并行,Kimi-K2.5 的 Agent Swarm 架构优势明显。

场景 4:视觉任务(图像/视频理解)
优先级 模型 理由
🥇 Kimi-K2.5 原生多模态,15T 视觉+文本 tokens 预训练
🥈 GLM-5 文本模型,视觉能力有限
🥉 MiniMax-M2.1 文本模型,视觉能力有限

我的推荐:如果涉及图像或视频输入,Kimi-K2.5 是唯一选择。

场景 5:框架迁移和兼容性测试
优先级 模型 理由
🥇 MiniMax-M2.1 6 个主流框架兼容,表现稳定
🥈 GLM-5 主要框架兼容
🥉 Kimi-K2.5 主要框架兼容

我的推荐:如果你需要在不同 Agent 框架之间迁移,MiniMax-M2.1 的兼容性更让人放心。

综合评分:谁才是真的王者?

我把三个模型按 6 个维度做了个综合评分:

维度 权重 GLM-5 MiniMax-M2.1 Kimi-K2.5
编程能力 25% ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
Agent 能力 25% ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
多模态 15% ⭐⭐ ⭐⭐ ⭐⭐⭐⭐⭐
上下文长度 10% ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐⭐
部署便捷性 10% ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
框架兼容性 10% ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐

综合评分雷达图

综合评分雷达图

我的结论

没有绝对的王者,只有最适合的选择。

  • 编程能力优先 → 选 GLM-5
  • Web/App 开发优先 → 选 MiniMax-M2.1
  • 视觉任务/Agent 并发优先 → 选 Kimi-K2.5

对我自己的团队来说,我们的选择是组合使用:飞书机器人1 用 GLM-5 处理编程问题,飞书机器人2 用 MiniMax-M2.1 也做通用全栈开发,飞书机器人3 用 Kimi-K2.5 处理复杂任务、写文档。

openclaw 的多代理路由功能,让这种组合方案变得可行。

踩坑提醒:我遇到过的那些坑

老实说,选型只是第一步,真正用起来还会遇到不少坑。这里分享几个我踩过的:

坑 1:API 调用成本没算清楚

一开始我只看了单次调用成本,觉得三个模型都差不多。结果上线后发现,GLM-5 的思考模式(Thinking Mode)会消耗大量 token------有时候一个复杂任务能消耗掉普通模式 5 倍的 token。

教训:上线前一定要做成本估算,尤其是长程任务和高频调用场景。

坑 2:框架兼容性不是"完全兼容"

MiniMax-M2.1 虽然号称兼容 6 个主流框架,但实际用起来还是有坑。比如在 Cline 里,某些高级功能(比如流式输出的复杂控制)会失效。

教训:"兼容"不等于"功能完全一致",上线前一定要做完整的功能测试。

坑 3:多模态能力的边界没搞清

Kimi-K2.5 的多模态能力很强,但不是万能的。我们试过让它处理复杂的 UI 设计稿,结果生成的代码质量参差不齐。后来发现,它对简单的设计稿效果很好,但复杂的多层级布局就有点吃力。

教训:多模态能力有边界,不要过度期待,要根据实际场景测试。

坑 4:上下文长度不是越长越好

Kimi-K2.5 的 256K 上下文确实很强,但如果真的塞满 256K,响应速度会明显下降。而且,大量的上下文信息反而会干扰模型的判断。

教训:上下文长度要合理使用,不是塞得越多越好。

坑 5:开源≠免费部署

这三个模型虽然都叫"开源",但如果你要本地部署,成本其实不低。GLM-5 的 744B 参数,光显存就需要几百 GB。MiniMax-M2.1 的参数规模虽然没公开,但从它强调"真实世界复杂任务"来看,估计也不小。

教训:开源不等于免费,部署成本要提前算清楚。

我的最终选择

说了这么多,你可能会问:那你最后选了哪个?

说实话,我们没有"只选一个"。

我们的方案是这样的:

  1. GLM-5:用于编程相关任务,尤其是后端重构和代码审查
  2. MiniMax-M2.1:用于 Web 和移动端开发,以及需要跨框架迁移的场景
  3. Kimi-K2.5:用于复杂的多模态任务和高并发 Agent 场景

openclaw 的多代理路由功能让这种组合方案变得可行。不同渠道、不同任务类型,自动路由到最合适的模型。

这样做的好处是什么?

  • 成本优化:简单任务用便宜模型,复杂任务用强模型
  • 性能优化:不同模型擅长的领域不同,各取所长
  • 风险控制:一个模型出问题,不影响其他场景

当然,这种方案也有缺点:

  • 运维复杂度增加
  • 需要维护多套配置
  • 调试和排错更困难

但对于我们这种对成本和性能都有要求的团队来说,这是最务实的方案。

相关资源

GLM-5 官方文档:https://docs.bigmodel.cn/cn/guide/models/text/glm-5

GLM-5 ModelScope:https://www.modelscope.cn/models/ZhipuAI/GLM-5

MiniMax M2.1 官方公告:https://www.minimaxi.com/news/minimax-m21

MiniMax M2.1 ModelScope:https://www.modelscope.cn/models/MiniMax/MiniMax-M2.1

Kimi-K2.5 Hugging Face:https://huggingface.co/moonshotai/Kimi-K2.5

Kimi-K2.5 ModelScope:https://www.modelscope.cn/models/moonshotai/Kimi-K2.5

Kimi K2.5 论文:https://arxiv.org/abs/2602.02276

openclaw 官方文档:https://docs.openclaw.ai

本文数据来源:各模型官方文档、技术报告、基准测试公开数据。测评数据截至 2026 年 2 月,模型能力会持续更新,建议定期关注官方动态。

相关推荐
QC·Rex2 小时前
Spring Boot + Spring AI 实战:从零构建企业级 AI 应用
spring boot·大模型·向量数据库·rag·spring ai·tool calling
rising start2 小时前
Dify在Windows上的部署
大模型·agent·dify
竹之却3 小时前
【Agent-阿程】AI先锋杯·14天征文挑战第14期-第2天-大模型部署与优化实战
人工智能·ai·大模型·边缘计算·剪枝·优化·蒸馏
世人万千丶3 小时前
Flutter 框架跨平台鸿蒙开发 - 气味图书馆应用
学习·flutter·华为·开源·harmonyos·鸿蒙
AI成长日志3 小时前
【GitHub开源项目专栏】TGI源码剖析:HuggingFace推理服务核心实现
开源·github
冬奇Lab3 小时前
一天一个开源项目(第69篇):second-brain-skills - 把 Claude Code 变成知识工作专家的 Skill 工具集
人工智能·开源
独特的螺狮粉3 小时前
雾色配色器:鸿蒙Flutter框架 实现的配色方案生成工具
flutter·华为·架构·开源·harmonyos
guslegend4 小时前
第4节:切片语义割裂怎么办?
人工智能·大模型·rag