国货 Kimi k1.5发布！是的，又打爆了Claude Sonnet 3.5，部分场景下提升幅度甚至高达 550%！

最近Kimi团队上线了一款重量级模型------Kimi k1.5。这是一款多模态强化学习模型，直接瞄准行业的几个标杆：比如解数学题的 AIME、MATH-500，以及代码生成的 LiveCodeBench。

你没看错，Kimi k1.5 的表现已经全面超越 GPT-4o 和 Claude Sonnet 3.5，部分场景下提升幅度甚至高达 550%！

接下来，就细说下呗，是骡子是马，总得拉出来溜溜吧。

Kimi k1.5 做了什么？

Kimi k1.5 是一款基于强化学习（Reinforcement Learning, RL）训练的大语言模型（LLM）。传统的语言模型主要依赖"预测下一个词"来学习，但这条路有个明显瓶颈------训练数据总是有限的。然而，强化学习可以让模型通过"探索+奖励"的方式，扩展自己的数据规模，实现更强的学习能力。

不过，过去的很多 RL+LLM 的尝试效果都不理想，竞争力有限。Kimi k1.5 的突破就在于，它构建了一个简化却高效的 RL 框架，避开了复杂的算法，比如 Monte Carlo 树搜索（MCTS）或者价值函数。简单点说，它用最直接的方式做出了非常棒的效果。

模型亮点拆解

让我们从以下几个技术维度聊聊 Kimi k1.5 为什么能成功。

1. 长上下文窗口：128k 的性能炸裂

传统的模型处理长文本时经常力不从心，而 Kimi k1.5 将上下文窗口直接扩展到了 128k。这意味着它可以同时处理超长的输入和输出内容。

在实现上，我们使用了部分回合重用的技术：

每次不必重新生成全新的轨迹，而是重用前一部分的计算结果，节省了大量计算成本。
这类似于复用函数调用的结果，既高效又节约资源。

直观效果：长上下文让 Kimi k1.5 不仅能看得更远，还能在复杂问题上更具反思和纠错能力。例如，数学证明或代码生成中，模型的"多步推理"能力显著提升。

2. 更强的策略优化算法

Kimi k1.5 的强化学习用到了一个改进版的在线镜像下降法（Online Mirror Descent, OMD）。

在实际操作中，我们还引入了以下优化策略：

采样策略优化：更精准地挑选训练数据，确保模型学到的都是关键技能。
长度惩罚：避免生成太长或太短的内容，提升输出质量。
数据配方调优：精心设计的多模态数据训练流程，确保文本和视觉数据的均衡学习。

效果：

这些优化让模型更高效地完成训练，同时在实际应用中生成更加合理的推理步骤。

3. 简化却高效的 RL 框架

相比那些"堆叠式"的复杂强化学习算法，Kimi k1.5 走了一条"化繁为简"的路。它直接结合了长上下文窗口和优化策略，避开了 MCTS、价值函数等传统强化学习组件。

通俗解释 ：

假设我们在爬楼梯，别人用复杂的滑轮系统辅助爬升，而 Kimi k1.5 直接升级了爬楼梯的速度------通过更多的规划和反思，它自己爬得比谁都快。

4. 多模态联合训练

除了文本数据，Kimi k1.5 还能处理视觉数据，这让它在图片理解+文本生成的任务中同样表现出色。

典型场景：

给一张数学题图像，让模型推导出解答步骤。
分析代码截图，并给出优化建议。

这种能力让 Kimi k1.5 在跨模态任务中如鱼得水，尤其是需要结合视觉和语言推理的场景。

实际表现：全面开花

以下是 Kimi k1.5 在多个领域的表现（对比 OpenAI 的 o1 及其他同类模型）：

测试集	Kimi k1.5 成绩	提升	对比模型
AIME	77.5	+550%	GPT-4o
MATH-500	96.2	+200%	Claude Sonnet 3.5
Codeforces	94-th 百分位	高水平稳定性	OpenAI o1
LiveCodeBench	47.3	+300%	GPT-4o

不仅如此，Kimi k1.5 还特别擅长短 CoT（Chain of Thought）推理，通过长 CoT 技术反哺短 CoT 模型，达到前所未有的表现。

如何试用 Kimi k1.5？

请先申请 API-key，然后申请使用 kimi1.5 的权限。通过之后就可以爽了。

我就是直接在我的 copy-coder-bolt 上进行测试的。copy-coder-bolt 是一个集成 copy-coder(图片还原高质量提示词)+bolt（代码生成和预览）为一体的小应用。参考这篇文章介绍：

测试，图片还原的效果

但是实话实说，目测预估价格是要比 deepseek 贵不少的。