国货 Kimi k1.5发布!是的,又打爆了Claude Sonnet 3.5,部分场景下提升幅度甚至高达 550%!

最近Kimi团队上线了一款重量级模型------Kimi k1.5。这是一款多模态强化学习模型,直接瞄准行业的几个标杆:比如解数学题的 AIME、MATH-500,以及代码生成的 LiveCodeBench。

你没看错,Kimi k1.5 的表现已经全面超越 GPT-4o 和 Claude Sonnet 3.5,部分场景下提升幅度甚至高达 550%

接下来,就细说下呗,是骡子是马,总得拉出来溜溜吧。


Kimi k1.5 做了什么?

Kimi k1.5 是一款基于强化学习(Reinforcement Learning, RL)训练的大语言模型(LLM)。传统的语言模型主要依赖"预测下一个词"来学习,但这条路有个明显瓶颈------训练数据总是有限的。然而,强化学习可以让模型通过"探索+奖励"的方式,扩展自己的数据规模,实现更强的学习能力。

不过,过去的很多 RL+LLM 的尝试效果都不理想,竞争力有限。Kimi k1.5 的突破就在于,它构建了一个简化却高效的 RL 框架,避开了复杂的算法,比如 Monte Carlo 树搜索(MCTS)或者价值函数。简单点说,它用最直接的方式做出了非常棒的效果。


模型亮点拆解

让我们从以下几个技术维度聊聊 Kimi k1.5 为什么能成功。

1. 长上下文窗口:128k 的性能炸裂

传统的模型处理长文本时经常力不从心,而 Kimi k1.5 将上下文窗口直接扩展到了 128k。这意味着它可以同时处理超长的输入和输出内容。

在实现上,我们使用了部分回合重用的技术:

  • 每次不必重新生成全新的轨迹,而是重用前一部分的计算结果,节省了大量计算成本。
    这类似于复用函数调用的结果,既高效又节约资源。

直观效果:长上下文让 Kimi k1.5 不仅能看得更远,还能在复杂问题上更具反思和纠错能力。例如,数学证明或代码生成中,模型的"多步推理"能力显著提升。


2. 更强的策略优化算法

Kimi k1.5 的强化学习用到了一个改进版的在线镜像下降法(Online Mirror Descent, OMD)。

在实际操作中,我们还引入了以下优化策略:

  • 采样策略优化:更精准地挑选训练数据,确保模型学到的都是关键技能。
  • 长度惩罚:避免生成太长或太短的内容,提升输出质量。
  • 数据配方调优:精心设计的多模态数据训练流程,确保文本和视觉数据的均衡学习。

效果

这些优化让模型更高效地完成训练,同时在实际应用中生成更加合理的推理步骤。


3. 简化却高效的 RL 框架

相比那些"堆叠式"的复杂强化学习算法,Kimi k1.5 走了一条"化繁为简"的路。它直接结合了长上下文窗口和优化策略,避开了 MCTS、价值函数等传统强化学习组件。

通俗解释

假设我们在爬楼梯,别人用复杂的滑轮系统辅助爬升,而 Kimi k1.5 直接升级了爬楼梯的速度------通过更多的规划和反思,它自己爬得比谁都快。


4. 多模态联合训练

除了文本数据,Kimi k1.5 还能处理视觉数据,这让它在图片理解+文本生成的任务中同样表现出色。

典型场景

  • 给一张数学题图像,让模型推导出解答步骤。
  • 分析代码截图,并给出优化建议。

这种能力让 Kimi k1.5 在跨模态任务中如鱼得水,尤其是需要结合视觉和语言推理的场景。


实际表现:全面开花

以下是 Kimi k1.5 在多个领域的表现(对比 OpenAI 的 o1 及其他同类模型):

测试集 Kimi k1.5 成绩 提升 对比模型
AIME 77.5 +550% GPT-4o
MATH-500 96.2 +200% Claude Sonnet 3.5
Codeforces 94-th 百分位 高水平稳定性 OpenAI o1
LiveCodeBench 47.3 +300% GPT-4o

不仅如此,Kimi k1.5 还特别擅长短 CoT(Chain of Thought)推理,通过长 CoT 技术反哺短 CoT 模型,达到前所未有的表现。


如何试用 Kimi k1.5?

请先申请 API-key,然后申请使用 kimi1.5 的权限。通过之后就可以爽了。

我就是直接在我的 copy-coder-bolt 上进行测试的。copy-coder-bolt 是一个集成 copy-coder(图片还原高质量提示词)+bolt(代码生成和预览)为一体的小应用。参考这篇文章介绍:

测试,图片还原的效果

但是实话实说,目测预估价格是要比 deepseek 贵不少的。

相关推荐
正在走向自律9 分钟前
Trae上手指南:AI编程从0到1的奇妙跃迁
人工智能
MILI元宇宙14 分钟前
DeepSeek R1开源模型的技术突破与AI产业格局的重构
人工智能·重构·开源
江苏泊苏系统集成有限公司1 小时前
半导体晶圆制造洁净厂房的微振控制方案-江苏泊苏系统集成有限公司
人工智能·深度学习·目标检测·机器学习·创业创新·制造·远程工作
猿小猴子2 小时前
主流 AI IDE 之一的 Windsurf 介绍
ide·人工智能
智联视频超融合平台3 小时前
无人机+AI视频联网:精准狙击,让‘罪恶之花’无处藏身
人工智能·网络协议·安全·系统安全·音视频·无人机
AiTEN_Robotics3 小时前
智能仓储落地:机器人如何通过自动化减少仓库操作失误?
人工智能·机器人·自动化
江湖有缘4 小时前
华为云Flexus+DeepSeek征文 | 初探华为云ModelArts Studio:部署DeepSeek-V3/R1商用服务的详细步骤
人工智能·华为云·modelarts
Vizio<4 小时前
基于FashionMnist数据集的自监督学习(生成式自监督学习AE算法)
人工智能·笔记·深度学习·神经网络·自监督学习
梅一一4 小时前
5款AI对决:Gemini学术封神,但日常办公我选它
大数据·人工智能·数据可视化
kyle~4 小时前
Pytorch---ImageFolder
人工智能·pytorch·python