【LLM】多模态智能体Kimi-K2.5模型

note

  • 原生多模态与早期融合训练:Kimi K2.5 打破"先训文本、后加视觉"的传统范式,采用早期融合策略(预训练早期即以10:90的低比例混合视觉-文本数据)。这种"联合优化"不仅避免了模态冲突,还实现了双向增强------视觉训练竟能提升纯文本推理能力(MMLU-Pro +1.7%),且仅用Zero-Vision SFT(纯文本代码代理)即可激活强大的视觉工具调用能力。
  • Agent Swarm:并行智能体架构,提出PARL(并行代理强化学习)框架,通过可训练的"协调器"动态创建专门化的冻结子代理,将复杂任务并行分解执行。相比传统单代理顺序执行,此举在保持高精度的同时降低延迟达4.5倍(如BrowseComp任务从60.6%提升至78.4%,速度提升3-4.5倍),解决了长程任务的可扩展性瓶颈。
  • 顶尖性能与统一架构:在15T token上预训练,基于1T参数的MoE基座,K2.5在智能体任务(DeepSearchQA等)、长视频理解(LVBench 75.9%,处理2000+帧)、文档OCR(92.3%)等多领域达到SOTA,性能对标或超越GPT-5.2、Claude Opus 4.5等闭源模型。
  • 开源与工程创新,贡献多项工程优化:MoonViT-3D统一处理图像视频(4倍时序压缩)、Toggle算法减少25-30%推理token、DEP技术实现90%的纯文本训练效率。这些技术共同推进了通用智能体智能(General Agentic Intelligence)的实用化。

文章目录

    • note
    • 一、Kimi-K2.5模型
    • 二、核心技术创新
      • [2.1 文本与视觉的联合优化(Joint Optimization)](#2.1 文本与视觉的联合优化(Joint Optimization))
      • [2.2 Zero-Vision SFT:纯文本激活视觉能力](#2.2 Zero-Vision SFT:纯文本激活视觉能力)
      • [2.3 视觉 RL 的跨模态迁移](#2.3 视觉 RL 的跨模态迁移)
    • [三、Agent Swarm:并行智能体架构](#三、Agent Swarm:并行智能体架构)
      • [3.1 架构设计](#3.1 架构设计)
      • [3.2 奖励函数设计](#3.2 奖励函数设计)
      • [3.3 性能表现(图8)](#3.3 性能表现(图8))
      • [3.4 上下文管理优势](#3.4 上下文管理优势)
    • 四、训练基础设施与优化
      • [4.1 MoonViT-3D 视觉编码器](#4.1 MoonViT-3D 视觉编码器)
      • [4.2 Toggle:Token 效率优化](#4.2 Toggle:Token 效率优化)
      • [4.3 解耦编码器进程(DEP)](#4.3 解耦编码器进程(DEP))
    • 五、全面性能评估
      • [5.1 与业界顶尖模型对比(表4)](#5.1 与业界顶尖模型对比(表4))
      • [5.2 关键观察](#5.2 关键观察)
    • 六、局限性与讨论
    • 七、总结与影响

一、Kimi-K2.5模型

维度 内容
输入 多模态:文本 + 图像(可变分辨率)+ 视频(最长2000帧)
输出 混合模式 : • Chat/Reasoning模式 :常规文本回答 • Agent模式 :Function Call(工具调用)+ 子代理创建/调度 • Coding模式:代码生成

Kimi K2.5 是 Moonshot AI 发布的开源多模态智能体模型,旨在推动通用智能体智能(General Agentic Intelligence)的发展。该模型采用原生多模态架构 ,通过文本与视觉的联合优化,以及创新的Agent Swarm(智能体集群)框架,在推理、编程、视觉理解和智能体任务上达到了业界领先水平。

核心数据概览

  • 基础架构:基于 Kimi K2(1.04T 参数 MoE,激活 32B)
  • 预训练数据:15T 混合视觉-文本 token
  • 关键突破:Agent Swarm 实现延迟降低 4.5× ,BrowseComp 任务性能从 60.6% 提升至 78.4%

【大模型技术报告进展】K2.5技术报告,https://github.com/MoonshotAI/Kimi-K2.5/blob/master/tech_report.pdf,开源多模态智能体模型,基于KimiK2万亿参数混合专家(MoE)构建,实现文本与视觉模态的协同增强及复杂任务的高效并行处理。

1)技术特点

  • 1.原生多模态预训练,早期融合策略,视觉-文本比例恒定(低视觉占比),15万亿混合tokens训练;
  • 2.零视觉SFT,纯文本SFT数据,通过IPython编程操作代理图像处理;
  • 3.联合多模态RL,结果导向视觉RL,按能力划分训练领域,跨模态迁移优化;
  • 4.AgentSwarm并行智能体,解决传统智能体串行执行导致的延迟高、复杂度受限问题。使用可训练协调器(Orchestrator)+冻结子智能体(Sub-agents),动态分解异质子任务并行执行,奖励机制上综合并行实例化奖励、子任务完成率奖励、任务结果奖励;

2)模型架构【MoonViT-3D视觉编码器(支持图像/视频统一处理,共享参数)、MLP投影层、KimiK2MoE语言模型,MoonViT-3D支持4倍帧压缩,可处理更长视频,图像与视频编码器完全权重共享】;

3)训练流程。【ViT单独训练,图像-文本对、视频-文本对(字幕、OCR等)1万亿token;联合预训练,文本、知识、视频、OS截图等混合数据15万亿token;长上下文中期训练,高质量长文本、长视频推理数据7000亿token;后训练(SFT+RL),多领域指令数据集、智能体任务数据】

二、核心技术创新

2.1 文本与视觉的联合优化(Joint Optimization)

传统方案的局限

常规多模态模型通常在文本模型训练后期(如 80% 进度后)以高比例(50%+)注入视觉数据,导致模态冲突和性能权衡。

K2.5 的策略

  • 早期融合(Early Fusion):从训练开始就以固定比例(Vision:Text = 10:90)混合数据
  • 连续优化:在整个预训练过程中保持恒定比例,避免后期的域迁移冲击

实验验证(表1):

结论:早期融合+低视觉比例在固定总 token 预算下表现最优,且在文本和视觉任务上均有优势。

2.2 Zero-Vision SFT:纯文本激活视觉能力

问题:预训练 VLM 不会自然执行视觉工具调用,传统方法依赖人工标注的视觉轨迹数据,多样性受限且易过拟合。

解决方案

  • 纯文本 SFT:所有图像操作通过 IPython 代码代理(如像素级二值化、计数、裁剪)
  • 零视觉数据:训练阶段完全不使用真实图像数据
  • 泛化机制:依赖联合预训练建立的强视觉-文本对齐,使文本学习的能力自然迁移到真实视觉任务

效果 (图2):

Zero-Vision SFT 启动后,通过长时程视觉 RL 训练,模型在 MMMU-Pro、MathVision、OCRBench 等基准上持续提升,证明纯文本激活足以获得鲁棒的视觉能力。

2.3 视觉 RL 的跨模态迁移

意外发现(表2):

视觉强化学习不仅提升视觉任务,还显著改善纯文本推理能力:

分析:视觉 RL 增强了模型在结构化信息提取领域的校准能力,减少了视觉推理类查询的不确定性。

三、Agent Swarm:并行智能体架构

3.1 架构设计

核心组件(图3):

  1. 可训练协调器(Orchestrator):动态分析任务,决策并行策略
  2. 冻结子代理(Frozen Sub-agents):从固定检查点实例化的领域专家(如 AI 研究员、物理研究员、事实核查员)
  3. 工具接口create_subagentassign_task 支持动态创建和任务委派

训练范式 - PARL(Parallel-Agent Reinforcement Learning)

  • 解耦训练:只更新协调器,子代理输出视为环境观测值
  • 避免信用分配问题:子代理执行轨迹不纳入优化目标,解决多智能体训练的不稳定性

3.2 奖励函数设计

r PARL ( x , y ) = λ 1 ⋅ r parallel ⏟ 实例化奖励 + λ 2 ⋅ r finish ⏟ 完成率 + r perf ( x , y ) ⏟ 任务级结果 r_{\text{PARL}}(x,y) = \lambda_1 \cdot \underbrace{r_{\text{parallel}}}{\text{实例化奖励}} + \lambda_2 \cdot \underbrace{r{\text{finish}}}{\text{完成率}} + \underbrace{r{\text{perf}}(x,y)}_{\text{任务级结果}} rPARL(x,y)=λ1⋅实例化奖励 rparallel+λ2⋅完成率 rfinish+任务级结果 rperf(x,y)

  • r parallel r_{\text{parallel}} rparallel:防止串行崩溃(Serial Collapse),激励子代理实例化
  • r finish r_{\text{finish}} rfinish:防止虚假并行(Spurious Parallelism),确保子任务实际完成
  • 关键步数(Critical Steps):类比计算图的关键路径,定义为各阶段最大执行时间之和,显式优化延迟而非仅吞吐量

3.3 性能表现(图8)

在 WideSearch 基准测试中,Agent Swarm 相比单代理基线:

  • 速度提升 :目标 Item-F1 从 30% 提升到 70% 时,执行时间节省 3×--4.5×
  • 准确率提升 :Item-F1 从 72.8%(单代理)提升至 79.0%

3.4 上下文管理优势

Agent Swarm 实现了主动上下文分片(Context Sharding)

  • 子代理维护独立的工作记忆和局部推理上下文
  • 只有任务相关输出返回给协调器,而非完整的交互轨迹
  • 相比传统的 Discard-all 或 Summary 等被动压缩策略,保留了更多结构化信息

四、训练基础设施与优化

4.1 MoonViT-3D 视觉编码器

  • 原生分辨率:采用 NaViT 打包策略,支持任意长宽比和分辨率
  • 统一视频处理:连续4帧作为时空体处理,时序平均实现 4× 压缩,支持处理长达 2,000 帧的视频
  • 权重共享:图像和视频完全共享参数和嵌入空间

4.2 Toggle:Token 效率优化

解决推理时的 token 膨胀问题:

  • 交替训练:在预算受限阶段(强制简洁输出)和标准缩放阶段(充分推理)之间交替
  • 动态预算:基于正确回答的 token 长度分布(ρ-百分位数)设定任务相关预算
  • 效果 (图5):平均减少 25-30% 的输出 token,性能无显著下降

4.3 解耦编码器进程(DEP)

解决多模态训练中的负载不均衡问题:

  • 视觉编码器与主 Transformer 解耦,支持独立的并行策略
  • 实现多模态训练效率达到纯文本训练的 90%

五、全面性能评估

5.1 与业界顶尖模型对比(表4)

领域 基准测试 Kimi K2.5 Claude Opus 4.5 GPT-5.2 Gemini 3 Pro
推理 AIME 2025 96.1 92.8 100 95.0
HLE-Full (工具) 50.2 43.2 45.5 45.8
GPQA-Diamond 87.6 87.0 92.4 91.9
编程 SWE-Bench Verified 76.8 80.9 80.0 76.2
LiveCodeBench v6 85.0 82.2 - 87.4*
智能体 BrowseComp 60.6 37.0 65.8 37.8
BrowseComp (Agent Swarm) 78.4 - - -
DeepSearchQA 77.1 76.1* 71.3* 63.2*
图像 MMMU-Pro 78.5 74.0 79.5* 81.0
MathVision 84.2 77.1* 83.0 86.1*
OCRBench 92.3 86.5* 80.7* 90.3*
视频 VideoMMMU 86.6 84.4* 85.9 87.6
LongVideoBench 79.8 67.2* 76.5* 77.7*
LVBench 75.9 57.3 - 73.5*
计算机使用 OSWorld-Verified 63.3 66.3 8.6* 20.7*
WebArena 58.9 63.4 - -

注:带 * 号为内部评估结果;黑体表示最优或并列最优

5.2 关键观察

  1. 智能体任务领先:在 BrowseComp、DeepSearchQA 等深度研究任务上显著领先闭源模型,Agent Swarm 版本更是达到 SOTA
  2. 长视频理解优势:在 LongVideoBench 和 LVBench 上建立新的全球 SOTA,展示 MoonViT-3D 的时序压缩优势
  3. OCR 与文档理解:OCRBench(92.3%)和 OmniDocBench 1.5(88.8%)表现突出,超过所有对比模型
  4. 代码能力:LiveCodeBench 实时编码挑战中表现最强,SWE-Bench 系列与顶级模型竞争

六、局限性与讨论

  1. 计算机使用差距:在 OSWorld-Verified(63.3% vs 66.3%)和 WebArena(58.9% vs 63.4%)上仍略落后于 Claude Opus 4.5
  2. 基准测试覆盖:部分基准测试(如 SimpleQA Verified 36.9%)显著落后于 Gemini 3 Pro(72.1%),表明在特定知识检索任务上仍有提升空间
  3. 计算资源需求:Agent Swarm 虽然降低延迟,但需要并行执行多个子代理,对推理基础设施提出更高要求

七、总结与影响

Kimi K2.5 的核心贡献

  1. 训练范式革新:证明早期融合+低比例视觉数据的联合预训练优于后期高比例注入,打破"视觉是文本附加能力"的传统认知

  2. 模态协同增强:首次系统验证视觉 RL 可反向提升文本推理能力,实现真正的双向跨模态迁移

  3. 智能体架构突破:Agent Swarm 通过 PARL 框架将任务复杂度从线性扩展转为并行处理,为复杂多步骤任务提供可扩展解决方案

  4. 工程实践价值:Zero-Vision SFT、Toggle 和 DEP 等技术显著降低多模态和智能体训练的成本门槛

相关推荐
JTnnnnn4 小时前
【架構優化】拒絕 LLM 幻覺:設計基於 Python 路由的 AntV 智慧圖表生成系統
llm·antv·dify
yuanlulu4 小时前
Agent_Skills_完全教程「AI生成」
人工智能·大语言模型·agent·智能体·skill·claude code·opencode
AndrewHZ4 小时前
【AI黑话日日新】什么是skills?
语言模型·大模型·llm·claude code·skills
玄同7654 小时前
LangChain v1.0 中间件深度解析:从 Callback 到 Middleware 的演进
人工智能·语言模型·自然语言处理·中间件·langchain·agent·智能体
roamingcode4 小时前
Cursor-memory-cli 自动化记忆提取的完整实现
运维·自动化·agent·memory·cursor·持久化记忆
陈希瑞5 小时前
OpenClaw部署与配置教程:在Mac mini上接入国产大模型与飞书
飞书·agent·openclawd
国家一级假勤奋大学生14 小时前
InternVL系列 technical report 解析
大模型·llm·vlm·mllm·internvl·调研笔记
GJGCY16 小时前
技术解析|中国智能体4类路径深度拆解,这类底座架构优势凸显
人工智能·经验分享·ai·agent·智能体·数字员工
玄同76520 小时前
告别 AgentExecutor:LangChain v1.0+ Agent 模块深度迁移指南与实战全解析
人工智能·语言模型·自然语言处理·langchain·nlp·agent·智能体