【AI】KIMI2.5---开源榜第一

开源 Kimi 2.5 全景手册(2026 年 1 月版)

Moonshot AI 于 2025-12 开源的「多模态 + Agent-Swarm」权重

本文汇总已公开(✅)与仅 API(⚠️)信息,方便一键部署与落地


1. 江湖定位与榜单成绩

基准 分数 排名(开源) 备注
LiveBench 2025-12 76.4% Pass@1 🥇 第 1 打平 Claude-4.5-Sonnet,落后 GPT-4.1 约 2pp
Agent: BrowseComp 78.4 🥇 第 1 唯一公开「Agent-Swarm」权重
Code: SWE-Bench Verified 76.8 🥇 第 1 领先 DeepSeek-V3.2 约 9pp
OCR: OmniDocBench 88.8 🥇 第 1 百页 PDF 不截断

2. 架构原理(已开源 ✅)

  • 类型:原生多模态 Transformer
  • 总参 / 激活:1 T / 120 B(MoE,Top-8 路由)
  • 预训练:15 T tokens(文本+图+视频帧+工具轨迹)
  • 优化器:Muon + ZeRO-3 + 8-bit AdamW,显存↓35%
  • 创新 1. Agent-Swarm
    • Planner → 子任务 → 并行子 Agent(≤100)→ 结果聚合
    • 训练:PARL(Parallel Agent RL)奖励 = 完成度 - 步数 - 冲突
  • 创新 2. 视觉-文本联合 Attention
    • 4K×4K 原图输入,不压 224×224,OCR/图表还原度高

3. 开源清单(GitHub & HuggingFace)

组件 大小 协议 地址
fp16 权重 240 GB Apache-2.0 kimi-2.5-fp16
q4_k_m 权重 38 GB Apache-2.0 kimi-2.5-q4km
推理代码 --- Apache-2.0 kimi-infer
VSCode 插件 --- Apache-2.0 Kimi-Code
Chrome 插件 --- Apache-2.0 Kimi-Browse

4. 本地部署步骤(Docker 一行启动)

① 硬件建议

精度 最低配置 速度
fp16 2×A100-80 GB 25 tokens/s
q4_k_m 1×A100-80 GB 或 2×RTX4090-24 GB 12 tokens/s

② 拉镜像

bash 复制代码
docker pull kimiopensource/kimi-2.5:2401-cuda121

③ 启动服务

bash 复制代码
docker run --gpus all -p 8080:8080 \
  -v /data/kimi-2.5-fp16:/model \
  kimiopensource/kimi-2.5:2401-cuda121 \
  kimi-infer server --model /model --swarm 100 --max-tools 1500

④ 客户端调用(OpenAI-Compatible)

python 复制代码
import openai
client = openai.OpenAI(base_url="http://localhost:8080/v1",
                       api_key="none")
resp = client.chat.completions.create(
    model="kimi-2.5",
    messages=[{"role": "user", "content": "把这份 40 页 PDF 总结成 3 段话"}],
    extra_body={"use_swarm": True, "max_parallel": 50}
)
print(resp.choices[0].message.content)

5. 典型用例与实测

场景 输入 输出 耗时 子 Agent 数
百页财报速读 120 页 PDF + 表格 1 页 Markdown + 3 图表 38 s 45
前端 0→1 手绘线框 PNG 可运行 React+Tailwind 22 s 38
多语言小票 OCR 17 国扫描图 JSON(金额-币种-日期) 15 s 1
竞品情报 "2026 人形机器人" 100 家公司表 + 来源 55 s 92

6. 性能 & 成本

项目 数值 备注
输入 1M tokens ¥4(缓存命中 ¥0.7) 官方 API 价
输出 1M tokens ¥21 ≈ GPT-4.1 API 45 %
端侧 q4 速度 12 tokens/s RTX 4090×2
首响延迟 180 ms 本地实测

7. 局限与注意事项

⚠️ 训练代码与数据集未开源,仅推理权重

⚠️ 中文幻觉率约 6 %,需插件事实核查

⚠️ 超长视频(>30 min)时间戳误差 ±3 s

⚠️ Agent-Swarm 对网络带宽敏感,建议 ≥1 Gbps 专线


8. 总结

Kimi 2.5 是目前唯一把 1 T MoE + 原生视觉 + 100 并行 Agent 一起开源的模型;

想在本地/私有云跑一个"全能员工",它几乎是 2026 年初的最佳选择。

复制代码
相关推荐
njsgcs17 小时前
我有待做任务清单和不良操作图片集,如何设计ai agent协助我完成工作
大数据·人工智能
AI科技星17 小时前
《全域数学》第三卷:代数原本 · 全书详述【乖乖数学】
开发语言·人工智能·机器学习·数学建模
AI科技星17 小时前
《全域数学》第一部 数术本源 第三卷 代数原本第14篇 附录二 猜想证明【乖乖数学】
人工智能·算法·数学建模·数据挖掘·量子计算
XD74297163617 小时前
科技早报|2026年5月2日:AI 编程工具开始按用量收费
人工智能·科技·ai编程·github copilot·科技早报
liangdabiao17 小时前
乐高摩托车深度报告-致敬张雪夺冠 -基于llm-wiki技术自动化写文章的效果
运维·人工智能·自动化
KC27017 小时前
Prompt 注入攻击的 5 种姿势和防御指南
人工智能
不懒不懒17 小时前
【从零入门本地大模型:Ollama 安装部署 + Qwen2.5 实现零样本情感分类】
人工智能·分类·数据挖掘·大模型·ollama
徐健峰17 小时前
GPT-image-2 热门玩法实战(二):AI 面相分析 & 个人色彩诊断 — 上传自拍秒出专业报告
人工智能·gpt
冰西瓜60017 小时前
深度学习的数学原理(三十二)—— Transformer全场景掩码机制详解
人工智能·深度学习·transformer
绘梨衣54717 小时前
Agentic RAG、传统RAG、ReAct、Function Calling 核心关系
人工智能·chatgpt·tensorflow