【AI】KIMI2.5---开源榜第一

开源 Kimi 2.5 全景手册(2026 年 1 月版)

Moonshot AI 于 2025-12 开源的「多模态 + Agent-Swarm」权重

本文汇总已公开(✅)与仅 API(⚠️)信息,方便一键部署与落地


1. 江湖定位与榜单成绩

基准 分数 排名(开源) 备注
LiveBench 2025-12 76.4% Pass@1 🥇 第 1 打平 Claude-4.5-Sonnet,落后 GPT-4.1 约 2pp
Agent: BrowseComp 78.4 🥇 第 1 唯一公开「Agent-Swarm」权重
Code: SWE-Bench Verified 76.8 🥇 第 1 领先 DeepSeek-V3.2 约 9pp
OCR: OmniDocBench 88.8 🥇 第 1 百页 PDF 不截断

2. 架构原理(已开源 ✅)

  • 类型:原生多模态 Transformer
  • 总参 / 激活:1 T / 120 B(MoE,Top-8 路由)
  • 预训练:15 T tokens(文本+图+视频帧+工具轨迹)
  • 优化器:Muon + ZeRO-3 + 8-bit AdamW,显存↓35%
  • 创新 1. Agent-Swarm
    • Planner → 子任务 → 并行子 Agent(≤100)→ 结果聚合
    • 训练:PARL(Parallel Agent RL)奖励 = 完成度 - 步数 - 冲突
  • 创新 2. 视觉-文本联合 Attention
    • 4K×4K 原图输入,不压 224×224,OCR/图表还原度高

3. 开源清单(GitHub & HuggingFace)

组件 大小 协议 地址
fp16 权重 240 GB Apache-2.0 kimi-2.5-fp16
q4_k_m 权重 38 GB Apache-2.0 kimi-2.5-q4km
推理代码 --- Apache-2.0 kimi-infer
VSCode 插件 --- Apache-2.0 Kimi-Code
Chrome 插件 --- Apache-2.0 Kimi-Browse

4. 本地部署步骤(Docker 一行启动)

① 硬件建议

精度 最低配置 速度
fp16 2×A100-80 GB 25 tokens/s
q4_k_m 1×A100-80 GB 或 2×RTX4090-24 GB 12 tokens/s

② 拉镜像

bash 复制代码
docker pull kimiopensource/kimi-2.5:2401-cuda121

③ 启动服务

bash 复制代码
docker run --gpus all -p 8080:8080 \
  -v /data/kimi-2.5-fp16:/model \
  kimiopensource/kimi-2.5:2401-cuda121 \
  kimi-infer server --model /model --swarm 100 --max-tools 1500

④ 客户端调用(OpenAI-Compatible)

python 复制代码
import openai
client = openai.OpenAI(base_url="http://localhost:8080/v1",
                       api_key="none")
resp = client.chat.completions.create(
    model="kimi-2.5",
    messages=[{"role": "user", "content": "把这份 40 页 PDF 总结成 3 段话"}],
    extra_body={"use_swarm": True, "max_parallel": 50}
)
print(resp.choices[0].message.content)

5. 典型用例与实测

场景 输入 输出 耗时 子 Agent 数
百页财报速读 120 页 PDF + 表格 1 页 Markdown + 3 图表 38 s 45
前端 0→1 手绘线框 PNG 可运行 React+Tailwind 22 s 38
多语言小票 OCR 17 国扫描图 JSON(金额-币种-日期) 15 s 1
竞品情报 "2026 人形机器人" 100 家公司表 + 来源 55 s 92

6. 性能 & 成本

项目 数值 备注
输入 1M tokens ¥4(缓存命中 ¥0.7) 官方 API 价
输出 1M tokens ¥21 ≈ GPT-4.1 API 45 %
端侧 q4 速度 12 tokens/s RTX 4090×2
首响延迟 180 ms 本地实测

7. 局限与注意事项

⚠️ 训练代码与数据集未开源,仅推理权重

⚠️ 中文幻觉率约 6 %,需插件事实核查

⚠️ 超长视频(>30 min)时间戳误差 ±3 s

⚠️ Agent-Swarm 对网络带宽敏感,建议 ≥1 Gbps 专线


8. 总结

Kimi 2.5 是目前唯一把 1 T MoE + 原生视觉 + 100 并行 Agent 一起开源的模型;

想在本地/私有云跑一个"全能员工",它几乎是 2026 年初的最佳选择。

复制代码
相关推荐
凯子坚持 c几秒前
CANN-LLM WebUI:打造国产 LLM 推理的“驾驶舱
人工智能
wukangjupingbb4 分钟前
AI驱动药物研发(AIDD)的开源生态
人工智能
2401_836235868 分钟前
中安未来行驶证识别:以OCR智能力量,重构车辆证件数字化效率
人工智能·深度学习·ocr
X54先生(人文科技)8 分钟前
《元创力》开源项目库已经创建
人工智能·架构·开源软件
无心水8 分钟前
分布式定时任务与SELECT FOR UPDATE:从致命陷阱到优雅解决方案(实战案例+架构演进)
服务器·人工智能·分布式·后端·spring·架构·wpf
一只大侠的侠9 分钟前
Flutter开源鸿蒙跨平台训练营 Day8获取轮播图网络数据并实现展示
flutter·开源·harmonyos
John_ToDebug11 分钟前
在代码的黄昏,建筑师诞生:从打字员到AI协作设计者的范式革命
人工智能·程序人生
水中加点糖13 分钟前
小白都能看懂的——车牌检测与识别(最新版YOLO26快速入门)
人工智能·yolo·目标检测·计算机视觉·ai·车牌识别·lprnet
Yaozh、17 分钟前
【神经网络中的Dropout随机失活问题】
人工智能·深度学习·神经网络