月之暗面（Moonshot AI）的Kimi K2.5开源权重多模态旗舰大模型

Kimi K2.5是月之暗面（Moonshot AI）于 2026 年 1 月 27 日发布的开源权重多模态旗舰大模型

定位为 "Kimi 迄今最智能、最全能的模型"，核心突破在Agent 集群、原生多模态与编码能力，并以 MoE 架构实现高效推理

K2.5 强调文本和视觉的联合优化，通过文本-视觉预训练、零视觉SFT和联合文本-视觉强化学习等技术，提升编码、视觉、推理和智体任务等领域的性能。

K2.5引入了Agent Swarm框架，能动态分解复杂任务并并行执行，降低延迟达4.5倍，在多个基准测试中表现亮眼，接近国际顶尖闭源模型水平，还支持视觉编程、多模态输入输出等能力，是原生多模态模型的代表之一。

三大核心能力

Agent Swarm（智能体集群，研究预览）

基于PARL（并行智能体强化学习），动态拆解复杂任务，调度最多 100 个子智能体并行执行，支持1500 次工具调用

相比单智能体，宽搜场景延迟最高降4.5 倍，F1 从 72.8% 提升至 79.0%。适用于多公司调研、多页翻译、大型项目研发等并行场景

原生多模态理解

采用MoonViT3D视觉编码器与早期融合策略，统一处理视觉与文本 token

支持图像、视频、图文 PDF 输入，可完成 UI 设计转代码、视频内容分析、图表理解等任务

四模式推理与强编码

提供Instant（即时）/Thinking（思考）/Agent（单智能体）/Agent Swarm（集群）四种模式

编码能力对标前沿模型，尤其擅长前端开发，配套Kimi Code可集成主流编辑器

与 K2 的关键差异

K2 为纯文本模型，K2.5 新增原生多模态（图像 / 视频 / PDF）

从 "单智能体长程执行" 升级为动态并行 Agent 集群，重构强化学习基建

统一架构，支持对话、复杂推理与自动化任务无缝切换

典型适用场景

后端 / 前端开发：API 设计、代码生成 / 调试、UI 稿转代码

复杂办公自动化：多文档整合、跨数据源调研、批量翻译

多模态内容处理：视频情节分析、图文 PDF 解析、图表生成

并行任务调度：需要拆解为子任务并高效并行完成的场景

小结

Kimi K2.5 以1T MoE+256K 上下文 + 原生多模态为底座

通过Agent Swarm将智能体从 "单兵作战" 升级为 "集群协作"，是面向复杂知识工作的开源全能模型，兼顾性能与商用友好性

附录

什么是权重多模态

权重多模态 = 文本和图像/视频等，在模型底层就用同一套权重、同一个编码器一起学习

不是 "文本模型 + 视觉模型" 拼起来，而是天生就一起长大

解读

单一流架构：文本、图像、视频、音频，都被映射到同一个语义空间

共享 Transformer 权重：不是两套模型，而是共享底层权重一起训练

真正理解 "图文关系"：模型不是分别看懂图、看懂字，而是直接理解图文之间的逻辑

比喻

普通多模态（后期拼接）

有个语文老师（文本模型），有个美术老师（视觉模型），各自教完，最后再把结果拼在一起→ 这叫多模态，但不是权重多模态

权重多模态（原生统一）

只有一个老师、一套教材，语文和美术从小一起学，文字、图片、视频在模型内部就是同一套表示、同一套权重→ 这才是权重多模态

为什么 Kimi K2.5 强调「权重多模态」

因为它代表：

更强的理解：图里的字、表格、图表、UI 都能精准看懂

更统一的推理：看图写代码、看视频总结、看 PDF 分析，一气呵成

不是外挂视觉，是原生多模态

MoE

含义

Mixture of Experts 混合专家

一个大模型里藏着很多 "小专家"，每次只激活几个干活

普通大模型（Dense 稠密模型）

全班 100 个学生都在

每做一道题，所有人一起算

算力消耗 = 100 人同时跑

优点：统一

缺点：巨费算力、巨慢、巨贵

MoE 混合专家模型

全班还是 100 个学生（总参数很大）

但老师出题后，只叫 2～4 个最擅长的学生来算

其他人休息、不参与计算

算力消耗 = 只算激活的那几个人

优点：参数超大、能力强，但速度快、省算力

模型分成很多个 Expert

每个专家擅长不同领域：代码、数学、语文、逻辑...

有一个 Gate（门控 / 路由）

它看一眼输入，决定这次激活哪几个专家

前向传播时

只有被选中的专家参与计算

其他参数不动、不占推理算力

MoE 的核心好处

总参数可以做得超大

比如 1 万亿参数，但每次只用到 30B

推理速度几乎不变

参数量翻 10 倍，速度不慢多少

能力更强、成本更低

适合做超长文本、多模态、复杂推理

GPT‑4、Kimi K2、Kimi K2.5、Llama 3 MoE 全都是 MoE 混合专家

它们宣传 1T 参数，不是唬人，是因为 MoE 允许把模型堆很大，又能跑得动

总结

普通稠密模型：人多一起干，又慢又贵

MoE 混合专家：人多但只叫高手干，又强又省算力

Agent 集群

一群 AI 组队干活，不是单打独斗

Agent 集群 = 一个总指挥 + 一群 AI 小助手

并行干活、互相配合、一起解决超级复杂任务

普通 AI Agent（单打独斗）

只有一个员工

所有事：写文案、写代码、查资料、画图、算数据...

全都一个人从头干到尾

任务复杂一点就乱、慢、容易错

Agent 集群（公司团队模式）

有一个 CEO（主智能体）：负责拆解任务、分配工作

下面有 10～100 个员工（子智能体）

每个员工只干自己擅长的事：

有的查资料

有的写代码

有的算数学

有的分析表格

有的总结文本

大家并行干活，最后汇总结果

这就是 Agent Swarm / Agent 集群

主 Agent 把复杂问题拆成很多小任务

多 Agent 并行执行：同时派多个子 AI 去做，速度成倍提升

结果汇总：主 Agent 把所有结果整理成最终答案

swarm

swɔːm

n. 一大群（移动中的昆虫）；（移动着的）一大群人；（多指发生在火山附近的）地震群；（天文）一大群小型天体同时在空中出现

v.（昆虫）成群飞行；（人）蜂涌，涌动；挤满，云集；成群地包围；爬（梯子等）

F1 分数，AI 回答准不准的核心评分

F1 = 0~100% 的分数，越高越准

AI 做任务（比如抽取信息、分类、回答问题），有两个关键：

查全率（Recall）：别漏掉该找的东西
查准率（Precision）：别乱编、别错

F1 就是这两个的综合平均分

F1 高：又全又准
F1 低：要么漏、要么错
F1 从 72.8% → 79.0%：用了 Agent 集群之后，AI 回答更准、漏得更少、正确率明显提升

PARL 并行 RL

PARL 并行 RL，专门做大规模、分布式、多智能体并行强化学习的核心能力

让成千上万个 Agent 同时跑、同时采数据、同时训练，把 RL 速度从 "蜗牛" 拉到 "火箭"

PARL 并行 RL = 用多机 / 多卡 / 多进程，让 N 个 Agent 同时跟环境交互、同时学策略，训练速度≈N 倍提升

为什么要并行 RL（痛点）

普通 RL 是单 Agent 串行：

一个 Agent → 一步一步试错 → 慢慢攒数据 → 慢慢更新模型

问题：慢、算力浪费、大任务根本跑不动

并行 RL 解决：

数据采集并行：N 个 Agent 同时跑，数据量 N 倍涨

训练并行：多 GPU / 多机一起算梯度、更新模型

结果：训练时间从几天→几小时，甚至几分钟

PARL 并行 RL 的核心架构

PARL 把并行拆成三大块，只要懂这 3 个角色：

三大核心组件（模块化）

Model：神经网络（策略 / 价值网络）

Algorithm：RL 算法（PPO/DQN/DDPG 等），负责更新模型

Agent：跟环境交互、采数据、把数据传给 Algorithm
并行模式（PARL 最牛的地方）

（1）数据并行（最常用）

每个 Worker 跑一个完整 Agent + 环境

所有 Worker 采的数据，汇总到中心节点更新模型

适合：多智能体、游戏、机器人、推荐系统

（2）异步并行（A3C 风格）

每个 Worker 独立采数据、独立更新本地模型

定期把本地梯度同步到全局模型

优点：无等待、吞吐极高；缺点：梯度可能有延迟

（3）分布式多机并行

跨多台服务器，每台跑多个 Worker

支持上千 Agent 同时训练，工业级规模