快手新模型登顶开源编程模型榜首!超越Qwen3-Coder等模型

今天,快手Kwaipilot团队开源了KAT-Dev-72B-Exp模型,该模型在软件开发能力评测基准SWE-Bench Verified上取得了74.6% 的卓越性能,创造了开源模型的新纪录。

此次登顶不仅超越了此前表现优异的Qwen3-Coder等强大的开源模型,还表现出对标顶尖闭源模型的实力。

SWE-Bench是全球公认的软件工程基准测试,要求模型真实理解代码库、修复错误并实现功能。KAT-Dev-72B-Exp的优异表现,证明了其在处理复杂编程任务上的强大能力。

在技术创新方面,该模型基于快手自研的SeamlessFlow工业级强化学习框架,通过创新的数据平面架构实现了训练逻辑与Agent的完全解耦。这种设计成功支持了多智能体和在线强化学习等复杂场景。

【数据平面的序列图】

针对复杂Agent场景的技术挑战,团队创新性地引入Trie Packing机制,并对训练引擎进行了重构优化,使模型能够高效地在共享前缀轨迹上开展训练。通过难度感知的策略优化,实现了探索与利用的平衡,这让模型在编程领域展现出强大的能力。

值得注意的是,这次登顶的模型是KAT-Coder模型的强化学习实验版本。这表明快手的模型迭代策略正在取得实质性进展,通过持续的技术优化,不断突破性能瓶颈。

此前,阿里开源的Qwen3-Coder曾引发广泛关注。Qwen3-Coder是千问系列模型中首个采用混合专家MoE架构的代码模型,总参数达480B,激活35B参数。在SWE-Bench评测中,Qwen3-Coder取得了开源最佳效果,可媲美Claude4。

然而,不到3个月的时间,快手新模型就以74.6%的解决率实现了对Qwen3-Coder的超越。这一突破不仅体现在数字上的提升,更反映了训练方法和架构优化的进步。

从技术路线上看,阿里Qwen3-Coder专注于Agent能力的提升,特别擅长解决多步骤的长任务。而快手KAT系列则采用了更为全面的训练方法,覆盖了从基础能力到复杂任务的多个层面。

根据技术资料显示,KAT系列模型经历了多个训练阶段的精细优化。

在Mid-Training阶段,团队增强了模型与"LLM-as-Agent"相关的全方位能力,包括工具调用能力、多轮交互能力、编码知识注入等。这种全面的基础能力建设为后续优化奠定了坚实基础。

监督微调阶段则策划了八种任务类型和八种编程场景,确保模型的泛化能力和综合能力。这种细致入微的任务设计,使模型能够适应各种复杂的编程环境。

特别值得一提的是强化微调阶段的创新。团队在强化学习流程的基础上,额外引入多个ground truth用于轨迹探索的指导。这种方法从直接给定绝对reward更新为衡量rollout样本和ground truth之间的相对差异,给了强化学习更稳定和更准确的奖励信号。

随着KAT-Dev-72B-Exp的开源,代码大模型的竞争将进入新的阶段。从快手的技术布局来看,其创新的训练方法和架构设计,为行业提供了新的发展思路。

这种技术突破将促使更多企业加大在AI编程领域的投入。同时,开源模型与闭源模型的竞争格局也可能发生变化,更多企业可能会选择开源路线以扩大生态影响力。

从应用前景看,高性能编程模型不仅将提升开发效率,还可能改变软件开发的本质。随着模型能力的不断提升,未来可能会出现全新的人机协作编程模式。

快手KAT-Dev-72B-Exp的登顶,是国产AI编程模型发展的一个重要里程碑。

随着技术的不断进步,更多优秀的国产模型不断涌现,并推动整个行业向更高水平发展。在这个过程中,开源共享的精神将继续发挥关键作用,助力全球AI技术的普及与提升。

对于开发者而言,现在正是探索和利用这些先进技术的良机。无论是参与开源项目,还是基于这些模型构建应用,都将为个人成长和行业进步创造新的价值。

相关推荐
ManageEngineITSM3 小时前
IT 服务自动化的时代:让效率与体验共进
运维·数据库·人工智能·自动化·itsm·工单系统
总有刁民想爱朕ha3 小时前
AI大模型学习(17)python-flask AI大模型和图片处理工具的从一张图到多平台适配的简单方法
人工智能·python·学习·电商图片处理
302AI3 小时前
体验升级而非颠覆,API成本直降75%:DeepSeek-V3.2-Exp评测
人工智能·llm·deepseek
NocoBase3 小时前
NocoBase 走进德国大学课堂
低代码·开源·资讯
新智元3 小时前
老黄押宝「美版 DeepSeek」!谷歌天才叛将创业,一夜吸金 20 亿美元
人工智能·openai
新智元3 小时前
刚刚,全球首个 GB300 巨兽救场!一年烧光 70 亿,OpenAI 内斗 GPU 惨烈
人工智能·openai
小虎鲸003 小时前
PyTorch的安装与使用
人工智能·pytorch·python·深度学习
酷柚易汛智推官4 小时前
AI + 区块链开发实战:3 大技术方向 + 5 个落地案例,解锁去中心化网络效能密码
人工智能·去中心化·区块链
星哥说事4 小时前
当AI遇上魔兽争霸3:腾讯混元带我重温青春的3D战场
人工智能