👏 马斯克为何连续点赞Kimi?
Kimi K2.5两种不同维度的"牛":
| 点赞时间 | 点赞原因 | 具体事件 |
|---|---|---|
| 第一次点赞 (技术影响力) | 技术报告令人印象深刻 | 3月16日,Kimi发布《Attention Residuals》技术报告,用全新的"注意力残差"机制重構了已有十年历史的残差连接,训练效率提升1.25倍。马斯克转发并评论:"Impressive work from Kimi"(Kimi的作品令人印象深刻)。 |
| 第二次点赞 (产业影响力) | 模型能力获得顶级工具认可 | 全球知名的编程工具Cursor发布自研模型Composer 2,在测评中超过Claude Opus 4.6。但开发者很快发现,Composer 2是基于Kimi K2.5微调而来的。马斯克直接发文认证:"是的,这就是Kimi K2.5"。 |
Kimi团队的回应也很有意思,用中文热梗"听我说,谢谢你,因为有你"致谢,被网友赞为"温柔中展现技术自信"。
🚀 Kimi K2.5真正的"牛逼"之处
如果说马斯克的点赞是"面子",那下面这些技术突破就是Kimi的"里子"。杨植麟在GTC大会上首次系统披露了背后的技术路线图,核心是三个维度的共振:
1. 底层架构重构:向"古老"技术标准开刀
杨植麟的观点很犀利:很多技术标准是八九年前的产物,正在成为Scaling的瓶颈。Kimi团队选择从底层重构:
| 重构对象 | Kimi的突破 | 效果 |
|---|---|---|
| 优化器 (Adam是2014年的标配) | 研发MuonClip优化器,解决万亿参数训练时的Logits爆炸问题 | 2倍于传统AdamW的计算效率 |
| 注意力机制 (Full Attention是2017年的) | 提出Kimi Linear混合线性注意力架构,挑战"所有层必须用全注意力"的惯例 | 超长上下文解码速度提升5-6倍 |
| 残差连接 (ResNet是2015年的) | 引入Attention Residuals,让模型每一层选择性地关注前序各层 | 48B模型训练效率提升1.25倍 ,科学推理成绩提升7.5% |
2. 视觉强化学习反哺文本能力:一个反直觉的发现
Kimi团队发现:在原生的视觉-文本联合预训练中,视觉强化学习能显著反哺文本性能 。消融实验显示,经过Vision RL训练后,模型在MMLU-Pro等纯文本基准测试上的表现提升了约2.1%。这意味着空间推理与视觉逻辑的增强,可以转化为更深层的通用认知能力。
3. 原生多模态 + 开源全能
Kimi K2.5采用原生多模态架构,支持图文混合输入,用户可以直接上传截图、录屏让模型分析。在HLE、BrowseComp、DeepSearchQA等多项Agent评测中,均取得全球开源模型的最佳成绩。
Kimi仅用美国顶尖实验室1%的资源,就达到了这一水平,被总裁张予彤称为"以创新换取极致效率"的成果。
🐝 Agent集群:Kimi的"杀手锏"
如果说上面的技术是"内功",那Agent集群就是Kimi K2.5最亮眼的"招式"。这可能是马斯克点赞时没展开说、但最值得关注的功能。
传统Agent是"单兵作战",而Kimi的Agent集群是一支即时组建的团队:
- 最大规模 :可动态调度最多100个子Agent并行工作
- 处理能力 :支持1500个步骤的复杂任务拆解
- 自动化 :所有角色分配与任务拆解由模型即时决策,无需人工预设
- 核心机制:Orchestrator(编排器)机制 + 并行RL奖励函数,防止协作中出现"串行塌缩"
实战场景:
- 让一群"分析师"分头完成100家公司的市场调研
- 动员"语言专家团"翻译300页文档
- 派出不同"研究员"综述5篇跨专业的论文
效率提升十倍以上。
💡 额外亮点:Kimi Code与出海
Kimi Code :随K2.5一同推出的编程工具,可在终端运行,与VSCode、Cursor、JetBrains等主流编辑器无缝集成。开发者可以直接输入图片和视频进行编程辅助。
海外走红:由于性价比突出,Kimi近期在海外市场迅速走红,形成"性价比驱动"的出海路径,也反映了中国AI产品在全球市场逐步建立影响力。
总的来说,Kimi K2.5的"牛逼"可以概括为三句话:
- 技术底子硬:把优化器、注意力、残差连接这些"老古董"全部重构,效率翻倍
- 路子走得对:Agent集群方向被Cursor等顶级工具验证,马斯克亲自认证
- 性价比极高:仅用1%的资源做出开源SOTA,出海走红是必然