快手新模型登顶开源编程模型榜首！超越Qwen3-Coder等模型

今天，快手Kwaipilot团队开源了KAT-Dev-72B-Exp模型，该模型在软件开发能力评测基准SWE-Bench Verified上取得了74.6% 的卓越性能，创造了开源模型的新纪录。

此次登顶不仅超越了此前表现优异的Qwen3-Coder等强大的开源模型，还表现出对标顶尖闭源模型的实力。

SWE-Bench是全球公认的软件工程基准测试，要求模型真实理解代码库、修复错误并实现功能。KAT-Dev-72B-Exp的优异表现，证明了其在处理复杂编程任务上的强大能力。

在技术创新方面，该模型基于快手自研的SeamlessFlow工业级强化学习框架，通过创新的数据平面架构实现了训练逻辑与Agent的完全解耦。这种设计成功支持了多智能体和在线强化学习等复杂场景。

【数据平面的序列图】

针对复杂Agent场景的技术挑战，团队创新性地引入Trie Packing机制，并对训练引擎进行了重构优化，使模型能够高效地在共享前缀轨迹上开展训练。通过难度感知的策略优化，实现了探索与利用的平衡，这让模型在编程领域展现出强大的能力。

值得注意的是，这次登顶的模型是KAT-Coder模型的强化学习实验版本。这表明快手的模型迭代策略正在取得实质性进展，通过持续的技术优化，不断突破性能瓶颈。

此前，阿里开源的Qwen3-Coder曾引发广泛关注。Qwen3-Coder是千问系列模型中首个采用混合专家MoE架构的代码模型，总参数达480B，激活35B参数。在SWE-Bench评测中，Qwen3-Coder取得了开源最佳效果，可媲美Claude4。

然而，不到3个月的时间，快手新模型就以74.6%的解决率实现了对Qwen3-Coder的超越。这一突破不仅体现在数字上的提升，更反映了训练方法和架构优化的进步。

从技术路线上看，阿里Qwen3-Coder专注于Agent能力的提升，特别擅长解决多步骤的长任务。而快手KAT系列则采用了更为全面的训练方法，覆盖了从基础能力到复杂任务的多个层面。

根据技术资料显示，KAT系列模型经历了多个训练阶段的精细优化。

在Mid-Training阶段，团队增强了模型与"LLM-as-Agent"相关的全方位能力，包括工具调用能力、多轮交互能力、编码知识注入等。这种全面的基础能力建设为后续优化奠定了坚实基础。

监督微调阶段则策划了八种任务类型和八种编程场景，确保模型的泛化能力和综合能力。这种细致入微的任务设计，使模型能够适应各种复杂的编程环境。

特别值得一提的是强化微调阶段的创新。团队在强化学习流程的基础上，额外引入多个ground truth用于轨迹探索的指导。这种方法从直接给定绝对reward更新为衡量rollout样本和ground truth之间的相对差异，给了强化学习更稳定和更准确的奖励信号。

随着KAT-Dev-72B-Exp的开源，代码大模型的竞争将进入新的阶段。从快手的技术布局来看，其创新的训练方法和架构设计，为行业提供了新的发展思路。

这种技术突破将促使更多企业加大在AI编程领域的投入。同时，开源模型与闭源模型的竞争格局也可能发生变化，更多企业可能会选择开源路线以扩大生态影响力。

从应用前景看，高性能编程模型不仅将提升开发效率，还可能改变软件开发的本质。随着模型能力的不断提升，未来可能会出现全新的人机协作编程模式。

快手KAT-Dev-72B-Exp的登顶，是国产AI编程模型发展的一个重要里程碑。

随着技术的不断进步，更多优秀的国产模型不断涌现，并推动整个行业向更高水平发展。在这个过程中，开源共享的精神将继续发挥关键作用，助力全球AI技术的普及与提升。

对于开发者而言，现在正是探索和利用这些先进技术的良机。无论是参与开源项目，还是基于这些模型构建应用，都将为个人成长和行业进步创造新的价值。