开源 Kimi 2.5 全景手册(2026 年 1 月版)
Moonshot AI 于 2025-12 开源的「多模态 + Agent-Swarm」权重
本文汇总已公开(✅)与仅 API(⚠️)信息,方便一键部署与落地
1. 江湖定位与榜单成绩
| 基准 | 分数 | 排名(开源) | 备注 |
|---|---|---|---|
| LiveBench 2025-12 | 76.4% Pass@1 | 🥇 第 1 | 打平 Claude-4.5-Sonnet,落后 GPT-4.1 约 2pp |
| Agent: BrowseComp | 78.4 | 🥇 第 1 | 唯一公开「Agent-Swarm」权重 |
| Code: SWE-Bench Verified | 76.8 | 🥇 第 1 | 领先 DeepSeek-V3.2 约 9pp |
| OCR: OmniDocBench | 88.8 | 🥇 第 1 | 百页 PDF 不截断 |
2. 架构原理(已开源 ✅)
- 类型:原生多模态 Transformer
- 总参 / 激活:1 T / 120 B(MoE,Top-8 路由)
- 预训练:15 T tokens(文本+图+视频帧+工具轨迹)
- 优化器:Muon + ZeRO-3 + 8-bit AdamW,显存↓35%
- 创新 1. Agent-Swarm
- Planner → 子任务 → 并行子 Agent(≤100)→ 结果聚合
- 训练:PARL(Parallel Agent RL)奖励 = 完成度 - 步数 - 冲突
- 创新 2. 视觉-文本联合 Attention
- 4K×4K 原图输入,不压 224×224,OCR/图表还原度高
3. 开源清单(GitHub & HuggingFace)
| 组件 | 大小 | 协议 | 地址 |
|---|---|---|---|
| fp16 权重 | 240 GB | Apache-2.0 | kimi-2.5-fp16 |
| q4_k_m 权重 | 38 GB | Apache-2.0 | kimi-2.5-q4km |
| 推理代码 | --- | Apache-2.0 | kimi-infer |
| VSCode 插件 | --- | Apache-2.0 | Kimi-Code |
| Chrome 插件 | --- | Apache-2.0 | Kimi-Browse |
4. 本地部署步骤(Docker 一行启动)
① 硬件建议
| 精度 | 最低配置 | 速度 |
|---|---|---|
| fp16 | 2×A100-80 GB | 25 tokens/s |
| q4_k_m | 1×A100-80 GB 或 2×RTX4090-24 GB | 12 tokens/s |
② 拉镜像
bash
docker pull kimiopensource/kimi-2.5:2401-cuda121
③ 启动服务
bash
docker run --gpus all -p 8080:8080 \
-v /data/kimi-2.5-fp16:/model \
kimiopensource/kimi-2.5:2401-cuda121 \
kimi-infer server --model /model --swarm 100 --max-tools 1500
④ 客户端调用(OpenAI-Compatible)
python
import openai
client = openai.OpenAI(base_url="http://localhost:8080/v1",
api_key="none")
resp = client.chat.completions.create(
model="kimi-2.5",
messages=[{"role": "user", "content": "把这份 40 页 PDF 总结成 3 段话"}],
extra_body={"use_swarm": True, "max_parallel": 50}
)
print(resp.choices[0].message.content)
5. 典型用例与实测
| 场景 | 输入 | 输出 | 耗时 | 子 Agent 数 |
|---|---|---|---|---|
| 百页财报速读 | 120 页 PDF + 表格 | 1 页 Markdown + 3 图表 | 38 s | 45 |
| 前端 0→1 | 手绘线框 PNG | 可运行 React+Tailwind | 22 s | 38 |
| 多语言小票 OCR | 17 国扫描图 | JSON(金额-币种-日期) | 15 s | 1 |
| 竞品情报 | "2026 人形机器人" | 100 家公司表 + 来源 | 55 s | 92 |
6. 性能 & 成本
| 项目 | 数值 | 备注 |
|---|---|---|
| 输入 1M tokens | ¥4(缓存命中 ¥0.7) | 官方 API 价 |
| 输出 1M tokens | ¥21 | ≈ GPT-4.1 API 45 % |
| 端侧 q4 速度 | 12 tokens/s | RTX 4090×2 |
| 首响延迟 | 180 ms | 本地实测 |
7. 局限与注意事项
⚠️ 训练代码与数据集未开源,仅推理权重
⚠️ 中文幻觉率约 6 %,需插件事实核查
⚠️ 超长视频(>30 min)时间戳误差 ±3 s
⚠️ Agent-Swarm 对网络带宽敏感,建议 ≥1 Gbps 专线
8. 总结
Kimi 2.5 是目前唯一把 1 T MoE + 原生视觉 + 100 并行 Agent 一起开源的模型;
想在本地/私有云跑一个"全能员工",它几乎是 2026 年初的最佳选择。