【AI】KIMI2.5---开源榜第一

开源 Kimi 2.5 全景手册（2026 年 1 月版）

Moonshot AI 于 2025-12 开源的「多模态 + Agent-Swarm」权重

本文汇总已公开（✅）与仅 API（⚠️）信息，方便一键部署与落地

1. 江湖定位与榜单成绩

基准	分数	排名（开源）	备注
LiveBench 2025-12	76.4% Pass@1	🥇 第 1	打平 Claude-4.5-Sonnet，落后 GPT-4.1 约 2pp
Agent: BrowseComp	78.4	🥇 第 1	唯一公开「Agent-Swarm」权重
Code: SWE-Bench Verified	76.8	🥇 第 1	领先 DeepSeek-V3.2 约 9pp
OCR: OmniDocBench	88.8	🥇 第 1	百页 PDF 不截断

2. 架构原理（已开源 ✅）

类型：原生多模态 Transformer
总参 / 激活：1 T / 120 B（MoE，Top-8 路由）
预训练：15 T tokens（文本+图+视频帧+工具轨迹）
优化器：Muon + ZeRO-3 + 8-bit AdamW，显存↓35%
创新 1. Agent-Swarm
- Planner → 子任务 → 并行子 Agent（≤100）→ 结果聚合
- 训练：PARL（Parallel Agent RL）奖励 = 完成度 - 步数 - 冲突
创新 2. 视觉-文本联合 Attention
- 4K×4K 原图输入，不压 224×224，OCR/图表还原度高

3. 开源清单（GitHub & HuggingFace）

组件	大小	协议	地址
fp16 权重	240 GB	Apache-2.0	kimi-2.5-fp16
q4_k_m 权重	38 GB	Apache-2.0	kimi-2.5-q4km
推理代码	---	Apache-2.0	kimi-infer
VSCode 插件	---	Apache-2.0	Kimi-Code
Chrome 插件	---	Apache-2.0	Kimi-Browse

4. 本地部署步骤（Docker 一行启动）

① 硬件建议

精度	最低配置	速度
fp16	2×A100-80 GB	25 tokens/s
q4_k_m	1×A100-80 GB 或 2×RTX4090-24 GB	12 tokens/s

② 拉镜像

bash 复制代码

docker pull kimiopensource/kimi-2.5:2401-cuda121

③ 启动服务

bash 复制代码

docker run --gpus all -p 8080:8080 \
  -v /data/kimi-2.5-fp16:/model \
  kimiopensource/kimi-2.5:2401-cuda121 \
  kimi-infer server --model /model --swarm 100 --max-tools 1500

④ 客户端调用（OpenAI-Compatible）

python 复制代码

import openai
client = openai.OpenAI(base_url="http://localhost:8080/v1",
                       api_key="none")
resp = client.chat.completions.create(
    model="kimi-2.5",
    messages=[{"role": "user", "content": "把这份 40 页 PDF 总结成 3 段话"}],
    extra_body={"use_swarm": True, "max_parallel": 50}
)
print(resp.choices[0].message.content)

5. 典型用例与实测

场景	输入	输出	耗时	子 Agent 数
百页财报速读	120 页 PDF + 表格	1 页 Markdown + 3 图表	38 s	45
前端 0→1	手绘线框 PNG	可运行 React+Tailwind	22 s	38
多语言小票 OCR	17 国扫描图	JSON（金额-币种-日期）	15 s	1
竞品情报	"2026 人形机器人"	100 家公司表 + 来源	55 s	92

6. 性能 & 成本

项目	数值	备注
输入 1M tokens	¥4（缓存命中 ¥0.7）	官方 API 价
输出 1M tokens	¥21	≈ GPT-4.1 API 45 %
端侧 q4 速度	12 tokens/s	RTX 4090×2
首响延迟	180 ms	本地实测

7. 局限与注意事项

⚠️ 训练代码与数据集未开源，仅推理权重

⚠️ 中文幻觉率约 6 %，需插件事实核查

⚠️ 超长视频（>30 min）时间戳误差 ±3 s

⚠️ Agent-Swarm 对网络带宽敏感，建议 ≥1 Gbps 专线

8. 总结

Kimi 2.5 是目前唯一把 1 T MoE + 原生视觉 + 100 并行 Agent 一起开源的模型；

想在本地/私有云跑一个"全能员工"，它几乎是 2026 年初的最佳选择。

复制代码