Kimi K2官方技术报告出炉:采用384个专家,训练不靠刷题靠“用自己的话再讲一遍”

Kimi K2 称霸全球开源模型的秘籍公开了!

没错,就是整整 32 页的 Kimi K2 官方技术报告。业内人士第一波 repo 已火速出炉:

这篇论文中有很多令人印象深刻的内容。

nice!它分享了很多关于 Kimi_(以及中国实验室)对这些模型的看法(他们关注 / 优化的内容)_。

Kimi K2,作为 Kimi 最新 MoE 基础模型,总参数 1T,激活参数 32B,能力领先性尤其展现在代码、Agent、数学推理任务上。

上线仅一周,它就在竞技场千人盲评中击败 DeepSeek,登顶全球最强开源模型,而且能媲美 Grok 4、GPT 4.5 等顶尖闭源模型。

那它是咋做到的呢?

别急,这篇最新论文来给答案了------一次性大公开 Kimi K2 的训练过程及 "秘密配方"

包括但不限于大家已经热议的:MuonClip 优化器、大规模 Agentic Tool Use 数据合成、通用强化学习等等。

下面详细来看。

都有哪些技术亮点

首先,Kimi 团队认为,现如今大语言模型正从静态模仿学习向 Agentic Intelligence 转型。

这意味着,模型需要具备在复杂动态环境中自主感知、规划、推理和行动的能力。

要实现这一点,当面人们面临两大挑战:

  • 预训练需在高质量数据有限的约束下,通过提升每 token 效率构建通用先验(universal prior)。

  • 后训练需将先验转化为可行动行为,但 Agentic 能力在自然数据中稀缺且难以规模化。

对此,团队在 Kimi K2 中采用了三大核心创新技术

1、MuonClip 优化器:抛弃传统的 Adam 优化器,创新性地使用了 Muon 优化器。结合 Muon 的 token 效率与 QK-Clip 的稳定性,支持 15.5 万亿 token 无损失 spike 预训练。

2、大规模 Agentic Tool Use 数据合成:构建可大规模生成多轮工具使用场景的合成 pipeline,覆盖数百领域、数千工具。

3、通用强化学习框架:结合可验证奖励(RLVR)和自我批判评估奖励,将对齐从静态扩展到开放域。

得益于以上技术,Kimi K2 在 SWE Bench Verified、Tau2、AceBench 等基准性能测试中,均取得开源模型中的 SOTA 成绩。

以下为技术细节部分:

预训练阶段

在 Kimi K2 预训练阶段,团队主要对优化器和数据进行了优化。

整体而言,其预训练采用了 MoE 架构 + 稳定优化器 + 高效 token 利用这一全新组合拳,以此构建通用语言和推理能力。

模型架构上,一共包含 384 个专家,每层激活其中 8 个,通过这种高度稀疏的设计在保证性能的同时优化计算效率。

在注意力机制上,K2 使用 MLA(Multi-head Latent Attention)结构代替传统的密集注意力(dense attention),有效减少了计算量和带宽压力。

而且将每层的注意力头数量降至 64 个,与同类模型相比进一步降低了推理过程中的资源消耗,使模型能更好地处理长上下文。

优化器选择上,K2 采用了 MuonClip 优化器,其核心是在 Muon 优化器基础上融合了 QK-Clip 机制。

这一机制会定期检查模型注意力的关键参数(query 和 key),如果它们的值太大,就自动 "收紧",防止计算过程出现异常,从而显著提升了训练稳定性。

团队最终也发现,借助 MuonClip 可让 K2 在 15.5 万亿 token 的预训练过程中实现零损失 spike,确保了大规模训练的连续性和有效性。

数据方面,其核心目标为,在高质量数据有限时,通过提升每 token 的有效学习信号_(token 效用)_来增强训练效率,避免重复训练导致的过拟合。

而为了让模型 "吃透" 有限的优质训练数据,K2 团队采取了一种所谓的 "重述法"

  • 对知识类文本:不是简单重复读,而是换着说法再讲一遍。

  • 对数学类文本:把枯燥的教材式内容改写成更易理解的 "学习笔记" 风格,还加入了多语言版本的翻译文本,让模型见多识广。

一言以蔽之,K2 的训练数据覆盖网页、代码、数学、知识四大板块,所有数据都经过严格的质量筛选,确保模型学到的都是有用的信息。

而且它不是靠 "多刷题" 训练出来的,而是靠 "换种说法讲一遍" 让模型真正理解知识

用重写 10 次的数据训练 1 轮(28.94%),其准确率超过了用原始数据训练 10 轮(23.76%)的结果 。

概括而言,K2 采用了与 DeepSeek-V3 相似的多头潜在注意力(MLA),具体对比如下:

后训练阶段

K2 后训练阶段主要涉及监督微调和强化学习。

值得一提的就是大规模 Agentic Tool Use 数据合成,主要流程如下:

  • 工具生成:3000 多真实 MCP 工具 + 20000 多合成工具,覆盖金融、机器人控制等领域;

  • Agentic 与任务生成:为工具集生成多样化 Agentic_(系统提示 + 工具组合)_和带评估标准的任务;

  • 轨迹生成:模拟用户交互、工具执行环境_(含状态更新和随机结果)_,生成多轮工具使用轨迹;

  • 结合真实执行沙箱_(如编码任务)_,确保数据真实性。

最终,Judge Agent 会依据任务 rubrics 对轨迹质量进行判断,只保留高质量样本用于训练。

这一过程本质上是一种大规模拒绝采样(rejection sampling)机制,结合模拟规模与真实反馈,实现了大范围、高保真的训练数据构建。

而在强化学习阶段,K2 主要经历了三大步骤:

第一,构建可验证的奖励环境(Verifiable Rewards Gym)。

简单说,团队为不同任务设计了 "可打分" 的训练场景,让模型的表现可以被客观评估。

比如对于编码场景,团队利用真实世界的数据_(如程序竞赛题目、GitHub 的 PR 和 issue)_构建任务,并通过自动化测试来验证模型的代码是否正确运行。

第二,除了外部评判,还训练模型自己评估自己,即引入自我评估奖励机制(Self-Critique Rubric Reward)。

具体而言,模型会将自己的多个输出结果进行两两比较,并根据一套明确的标准_(如语言清晰度、对话是否连贯、是否啰嗦或拍马屁)给出奖励分,同时还引入一些规则约束(如 "不要无脑称赞用户")_来避免生成套路化或迎合性回答。

这个机制不仅增强了模型的自我反馈能力,也能将客观任务中的评估信号迁移到主观对话场景_(如回答开放性问题等人类主观评判场景)_,形成闭环优化。

第三,为了更高效、稳定地进行强化学习训练,K2 还对算法进行了多项改进。

包括但不限于下面这些:

  • 预算控制机制:限制每个样本的最大 token 数,避免生成啰嗦、重复或无意义的长文本。

  • 引入 PTX 辅助损失:使用高质量预训练样本时再加一个损失项,以防模型在 RL 阶段 "遗忘" 已有知识。

  • 温度衰减策略:训练初期用高温度鼓励模型大胆尝试、广泛探索,后期逐步降低温度,让模型输出更稳定、更收敛。

最后据论文介绍,K2 的训练依托于由 NVIDIA H800 构成的大规模高带宽 GPU 集群,通过混合并行策略,既保证了训练效率,又能在不同规模资源下灵活适配。

每个节点配备 2TB 内存,并通过 NVLink 和 NVSwitch 将 8 块 GPU 在节点内部高速互联。不同节点之间则使用 8×400 Gbps 的 RoCE 网络互联,以实现节点间的高效通信。

One More Thing

就在刚刚,阿里通义 Qwen3 模型也更新了------

正式由 Qwen3-235B-A22B 更新至 Qwen3-235B-A22B-2507

官方表示,他们停用了混合思维模式,改为分别训练 Instruct 和 Thinking 模型以提升质量,并正式发布性能更强的 Qwen3-235B-A22B-Instruct-2507 及其 FP8 版本。

而且官方测评显示,最新版 Qwen3 又击败了 Kimi K2 模型,开源新王或将再次易主。

参考链接:

1\][x.com/timfduffy/s...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Ftimfduffy%2Fstatus%2F1947424245463847417 "https://x.com/timfduffy/status/1947424245463847417") \[2\][x.com/thomasahle/...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fthomasahle%2Fstatus%2F1947421078524969107 "https://x.com/thomasahle/status/1947421078524969107") \[3\][x.com/nrehiew_/st...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fnrehiew_%2Fstatus%2F1947420382312730706 "https://x.com/nrehiew_/status/1947420382312730706") \[4\][x.com/Alibaba_Qwe...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FAlibaba_Qwen%2Fstatus%2F1947344511988076547 "https://x.com/Alibaba_Qwen/status/1947344511988076547") **欢迎在评论区留下你的想法!** --- **完** ---

相关推荐
thinktik13 小时前
AWS Q Cli在Linux上无界面登陆
ai编程·aws
charieli-fh13 小时前
OpenAI Codex CLI与 Google Gemini CLI 比较
ai编程
星际码仔13 小时前
Trae SOLO全方位测评:离真正的“AI原生IDE”还有多远?
ai编程·cursor·trae
ruokkk13 小时前
Gemini 2.5 Pro 竟然解决了困扰我一天的BUG!
后端·ai编程
量子位14 小时前
谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人
google·ai编程
都叫我大帅哥16 小时前
Spring AI MCP:让AI开发像“拼乐高”一样简单
java·spring·ai编程
qiyue7718 小时前
AI编程专栏(六)-前端必用MCP推荐
前端·ai编程·mcp
朱涛的自习室18 小时前
新一代 Agentic AI 智能体,助力 Android 开发 | Google I/O
android·android studio·ai编程
前端大伟_Allen7D20 小时前
Claude Code 增强系统 SuperClaude 安装和使用
ai编程