快手新模型登顶开源编程模型榜首!超越Qwen3-Coder等模型

今天,快手Kwaipilot团队开源了KAT-Dev-72B-Exp模型,该模型在软件开发能力评测基准SWE-Bench Verified上取得了74.6% 的卓越性能,创造了开源模型的新纪录。

此次登顶不仅超越了此前表现优异的Qwen3-Coder等强大的开源模型,还表现出对标顶尖闭源模型的实力。

SWE-Bench是全球公认的软件工程基准测试,要求模型真实理解代码库、修复错误并实现功能。KAT-Dev-72B-Exp的优异表现,证明了其在处理复杂编程任务上的强大能力。

在技术创新方面,该模型基于快手自研的SeamlessFlow工业级强化学习框架,通过创新的数据平面架构实现了训练逻辑与Agent的完全解耦。这种设计成功支持了多智能体和在线强化学习等复杂场景。

【数据平面的序列图】

针对复杂Agent场景的技术挑战,团队创新性地引入Trie Packing机制,并对训练引擎进行了重构优化,使模型能够高效地在共享前缀轨迹上开展训练。通过难度感知的策略优化,实现了探索与利用的平衡,这让模型在编程领域展现出强大的能力。

值得注意的是,这次登顶的模型是KAT-Coder模型的强化学习实验版本。这表明快手的模型迭代策略正在取得实质性进展,通过持续的技术优化,不断突破性能瓶颈。

此前,阿里开源的Qwen3-Coder曾引发广泛关注。Qwen3-Coder是千问系列模型中首个采用混合专家MoE架构的代码模型,总参数达480B,激活35B参数。在SWE-Bench评测中,Qwen3-Coder取得了开源最佳效果,可媲美Claude4。

然而,不到3个月的时间,快手新模型就以74.6%的解决率实现了对Qwen3-Coder的超越。这一突破不仅体现在数字上的提升,更反映了训练方法和架构优化的进步。

从技术路线上看,阿里Qwen3-Coder专注于Agent能力的提升,特别擅长解决多步骤的长任务。而快手KAT系列则采用了更为全面的训练方法,覆盖了从基础能力到复杂任务的多个层面。

根据技术资料显示,KAT系列模型经历了多个训练阶段的精细优化。

在Mid-Training阶段,团队增强了模型与"LLM-as-Agent"相关的全方位能力,包括工具调用能力、多轮交互能力、编码知识注入等。这种全面的基础能力建设为后续优化奠定了坚实基础。

监督微调阶段则策划了八种任务类型和八种编程场景,确保模型的泛化能力和综合能力。这种细致入微的任务设计,使模型能够适应各种复杂的编程环境。

特别值得一提的是强化微调阶段的创新。团队在强化学习流程的基础上,额外引入多个ground truth用于轨迹探索的指导。这种方法从直接给定绝对reward更新为衡量rollout样本和ground truth之间的相对差异,给了强化学习更稳定和更准确的奖励信号。

随着KAT-Dev-72B-Exp的开源,代码大模型的竞争将进入新的阶段。从快手的技术布局来看,其创新的训练方法和架构设计,为行业提供了新的发展思路。

这种技术突破将促使更多企业加大在AI编程领域的投入。同时,开源模型与闭源模型的竞争格局也可能发生变化,更多企业可能会选择开源路线以扩大生态影响力。

从应用前景看,高性能编程模型不仅将提升开发效率,还可能改变软件开发的本质。随着模型能力的不断提升,未来可能会出现全新的人机协作编程模式。

快手KAT-Dev-72B-Exp的登顶,是国产AI编程模型发展的一个重要里程碑。

随着技术的不断进步,更多优秀的国产模型不断涌现,并推动整个行业向更高水平发展。在这个过程中,开源共享的精神将继续发挥关键作用,助力全球AI技术的普及与提升。

对于开发者而言,现在正是探索和利用这些先进技术的良机。无论是参与开源项目,还是基于这些模型构建应用,都将为个人成长和行业进步创造新的价值。

相关推荐
adaAS14143157 分钟前
YOLO11-ReCalibrationFPN-P345实现酒液品牌识别与分类_1
人工智能·分类·数据挖掘
AEMC马广川8 分钟前
能源托管项目中“企业认证+人才证书”双轨评分策略分析
大数据·运维·人工智能·能源
鲸采云SRM采购管理系统9 分钟前
2025采购管理系统新趋势解读:AI与自动化正当时
人工智能
weixin_4481199411 分钟前
不要将包含API密钥的 .env 文件提交到版本控制系统中
人工智能
北京耐用通信17 分钟前
解码协议迷雾:耐达讯自动化Profinet转Devicenet让食品包装称重模块“跨界对话”的魔法
人工智能·物联网·网络协议·自动化·信息与通信
塔楼22 分钟前
MiniCPM-V 4.5
人工智能·深度学习
猫天意25 分钟前
【即插即用模块】AAAI2025 | 高频 + 空间感知!新 HS-FPN 让“极小目标”不再消失!SCI保二区争一区!彻底疯狂!!!
网络·人工智能·深度学习·学习·音视频
罗小罗同学25 分钟前
基于虚拟染色的病理切片进行癌症分类,准确率可达到95.9%,在统计学上逼近真实染色的金标准,两小时可处理100张切片
人工智能·分类·数据挖掘·医学图像处理·医学人工智能
OneCrab28 分钟前
100种AI模型安全漏洞展示
人工智能