【AI】KIMI2.5---开源榜第一

开源 Kimi 2.5 全景手册(2026 年 1 月版)

Moonshot AI 于 2025-12 开源的「多模态 + Agent-Swarm」权重

本文汇总已公开(✅)与仅 API(⚠️)信息,方便一键部署与落地


1. 江湖定位与榜单成绩

基准 分数 排名(开源) 备注
LiveBench 2025-12 76.4% Pass@1 🥇 第 1 打平 Claude-4.5-Sonnet,落后 GPT-4.1 约 2pp
Agent: BrowseComp 78.4 🥇 第 1 唯一公开「Agent-Swarm」权重
Code: SWE-Bench Verified 76.8 🥇 第 1 领先 DeepSeek-V3.2 约 9pp
OCR: OmniDocBench 88.8 🥇 第 1 百页 PDF 不截断

2. 架构原理(已开源 ✅)

  • 类型:原生多模态 Transformer
  • 总参 / 激活:1 T / 120 B(MoE,Top-8 路由)
  • 预训练:15 T tokens(文本+图+视频帧+工具轨迹)
  • 优化器:Muon + ZeRO-3 + 8-bit AdamW,显存↓35%
  • 创新 1. Agent-Swarm
    • Planner → 子任务 → 并行子 Agent(≤100)→ 结果聚合
    • 训练:PARL(Parallel Agent RL)奖励 = 完成度 - 步数 - 冲突
  • 创新 2. 视觉-文本联合 Attention
    • 4K×4K 原图输入,不压 224×224,OCR/图表还原度高

3. 开源清单(GitHub & HuggingFace)

组件 大小 协议 地址
fp16 权重 240 GB Apache-2.0 kimi-2.5-fp16
q4_k_m 权重 38 GB Apache-2.0 kimi-2.5-q4km
推理代码 --- Apache-2.0 kimi-infer
VSCode 插件 --- Apache-2.0 Kimi-Code
Chrome 插件 --- Apache-2.0 Kimi-Browse

4. 本地部署步骤(Docker 一行启动)

① 硬件建议

精度 最低配置 速度
fp16 2×A100-80 GB 25 tokens/s
q4_k_m 1×A100-80 GB 或 2×RTX4090-24 GB 12 tokens/s

② 拉镜像

bash 复制代码
docker pull kimiopensource/kimi-2.5:2401-cuda121

③ 启动服务

bash 复制代码
docker run --gpus all -p 8080:8080 \
  -v /data/kimi-2.5-fp16:/model \
  kimiopensource/kimi-2.5:2401-cuda121 \
  kimi-infer server --model /model --swarm 100 --max-tools 1500

④ 客户端调用(OpenAI-Compatible)

python 复制代码
import openai
client = openai.OpenAI(base_url="http://localhost:8080/v1",
                       api_key="none")
resp = client.chat.completions.create(
    model="kimi-2.5",
    messages=[{"role": "user", "content": "把这份 40 页 PDF 总结成 3 段话"}],
    extra_body={"use_swarm": True, "max_parallel": 50}
)
print(resp.choices[0].message.content)

5. 典型用例与实测

场景 输入 输出 耗时 子 Agent 数
百页财报速读 120 页 PDF + 表格 1 页 Markdown + 3 图表 38 s 45
前端 0→1 手绘线框 PNG 可运行 React+Tailwind 22 s 38
多语言小票 OCR 17 国扫描图 JSON(金额-币种-日期) 15 s 1
竞品情报 "2026 人形机器人" 100 家公司表 + 来源 55 s 92

6. 性能 & 成本

项目 数值 备注
输入 1M tokens ¥4(缓存命中 ¥0.7) 官方 API 价
输出 1M tokens ¥21 ≈ GPT-4.1 API 45 %
端侧 q4 速度 12 tokens/s RTX 4090×2
首响延迟 180 ms 本地实测

7. 局限与注意事项

⚠️ 训练代码与数据集未开源,仅推理权重

⚠️ 中文幻觉率约 6 %,需插件事实核查

⚠️ 超长视频(>30 min)时间戳误差 ±3 s

⚠️ Agent-Swarm 对网络带宽敏感,建议 ≥1 Gbps 专线


8. 总结

Kimi 2.5 是目前唯一把 1 T MoE + 原生视觉 + 100 并行 Agent 一起开源的模型;

想在本地/私有云跑一个"全能员工",它几乎是 2026 年初的最佳选择。

复制代码
相关推荐
智驱力人工智能2 小时前
实线变道检测 高架道路安全治理的工程化实践 隧道压实线监测方案 城市快速路压实线实时预警 压实线与车牌识别联动方案
人工智能·opencv·算法·安全·yolo·边缘计算
萤丰信息2 小时前
智慧园区:以技术赋能,构筑安全便捷的现代化生态空间
大数据·人工智能·科技·安全·智慧城市·智慧园区
码农三叔2 小时前
(7-3-01)电机与执行器系统:驱动器开发与控制接口(1)电机驱动电路+编码器与反馈
人工智能·单片机·嵌入式硬件·架构·机器人·人形机器人
光羽隹衡2 小时前
计算机视觉--Opencv(模板匹配)
人工智能·opencv·计算机视觉
互联科技报2 小时前
2026Ai短视频工具市场报告:行业规模、占有率及内容特工队AI排名
人工智能
小马爱打代码2 小时前
Spring AI 进阶:RAG 技术原理拆解与本地知识库检索落地
人工智能·深度学习·spring
freepopo2 小时前
天津商业空间设计:本地团队的美学落地方案 [特殊字符]
大数据·人工智能·python
想你依然心痛2 小时前
AI 视频生成新时代:Wan2.2-T2V-A5B 文本转视频实战
人工智能·音视频·ai视频
咚咚王者2 小时前
人工智能之核心技术 深度学习 第五章 Transformer模型
人工智能·深度学习·transformer