快手新模型登顶开源编程模型榜首!超越Qwen3-Coder等模型

今天,快手Kwaipilot团队开源了KAT-Dev-72B-Exp模型,该模型在软件开发能力评测基准SWE-Bench Verified上取得了74.6% 的卓越性能,创造了开源模型的新纪录。

此次登顶不仅超越了此前表现优异的Qwen3-Coder等强大的开源模型,还表现出对标顶尖闭源模型的实力。

SWE-Bench是全球公认的软件工程基准测试,要求模型真实理解代码库、修复错误并实现功能。KAT-Dev-72B-Exp的优异表现,证明了其在处理复杂编程任务上的强大能力。

在技术创新方面,该模型基于快手自研的SeamlessFlow工业级强化学习框架,通过创新的数据平面架构实现了训练逻辑与Agent的完全解耦。这种设计成功支持了多智能体和在线强化学习等复杂场景。

【数据平面的序列图】

针对复杂Agent场景的技术挑战,团队创新性地引入Trie Packing机制,并对训练引擎进行了重构优化,使模型能够高效地在共享前缀轨迹上开展训练。通过难度感知的策略优化,实现了探索与利用的平衡,这让模型在编程领域展现出强大的能力。

值得注意的是,这次登顶的模型是KAT-Coder模型的强化学习实验版本。这表明快手的模型迭代策略正在取得实质性进展,通过持续的技术优化,不断突破性能瓶颈。

此前,阿里开源的Qwen3-Coder曾引发广泛关注。Qwen3-Coder是千问系列模型中首个采用混合专家MoE架构的代码模型,总参数达480B,激活35B参数。在SWE-Bench评测中,Qwen3-Coder取得了开源最佳效果,可媲美Claude4。

然而,不到3个月的时间,快手新模型就以74.6%的解决率实现了对Qwen3-Coder的超越。这一突破不仅体现在数字上的提升,更反映了训练方法和架构优化的进步。

从技术路线上看,阿里Qwen3-Coder专注于Agent能力的提升,特别擅长解决多步骤的长任务。而快手KAT系列则采用了更为全面的训练方法,覆盖了从基础能力到复杂任务的多个层面。

根据技术资料显示,KAT系列模型经历了多个训练阶段的精细优化。

在Mid-Training阶段,团队增强了模型与"LLM-as-Agent"相关的全方位能力,包括工具调用能力、多轮交互能力、编码知识注入等。这种全面的基础能力建设为后续优化奠定了坚实基础。

监督微调阶段则策划了八种任务类型和八种编程场景,确保模型的泛化能力和综合能力。这种细致入微的任务设计,使模型能够适应各种复杂的编程环境。

特别值得一提的是强化微调阶段的创新。团队在强化学习流程的基础上,额外引入多个ground truth用于轨迹探索的指导。这种方法从直接给定绝对reward更新为衡量rollout样本和ground truth之间的相对差异,给了强化学习更稳定和更准确的奖励信号。

随着KAT-Dev-72B-Exp的开源,代码大模型的竞争将进入新的阶段。从快手的技术布局来看,其创新的训练方法和架构设计,为行业提供了新的发展思路。

这种技术突破将促使更多企业加大在AI编程领域的投入。同时,开源模型与闭源模型的竞争格局也可能发生变化,更多企业可能会选择开源路线以扩大生态影响力。

从应用前景看,高性能编程模型不仅将提升开发效率,还可能改变软件开发的本质。随着模型能力的不断提升,未来可能会出现全新的人机协作编程模式。

快手KAT-Dev-72B-Exp的登顶,是国产AI编程模型发展的一个重要里程碑。

随着技术的不断进步,更多优秀的国产模型不断涌现,并推动整个行业向更高水平发展。在这个过程中,开源共享的精神将继续发挥关键作用,助力全球AI技术的普及与提升。

对于开发者而言,现在正是探索和利用这些先进技术的良机。无论是参与开源项目,还是基于这些模型构建应用,都将为个人成长和行业进步创造新的价值。

相关推荐
Jing_Rainbow20 分钟前
【AI-7 全栈-2 /Lesson16(2025-11-01)】构建一个基于 AIGC 的 Logo 生成 Bot:从前端到后端的完整技术指南 🎨
前端·人工智能·后端
syounger21 分钟前
奔驰全球 IT 加速转型:SAP × AWS × Agentic AI 如何重塑企业核心系统
人工智能·云计算·aws
16_one35 分钟前
autoDL安装Open-WebUi+Rag本地知识库问答+Function Calling
人工智能·后端·算法
智能交通技术38 分钟前
iTSTech:自动驾驶技术综述报告 2025
人工智能·机器学习·自动驾驶
清云逸仙1 小时前
AI Prompt 工程最佳实践:打造结构化的Prompt
人工智能·经验分享·深度学习·ai·ai编程
todoitbo1 小时前
基于Rokid CXR-M SDK实现AR智能助手应用:让AI大模型走进AR眼镜
人工智能·ai·ar·ar眼镜·rokid
极客密码1 小时前
【已开源】Cursor AI 开发实战:小文件在线互传工具
开源·ai编程·cursor
hacker7071 小时前
openGauss 在K12教育场景的数据处理测评:CASE WHEN 实现高效分类
人工智能·分类·数据挖掘
GISer_Jing2 小时前
遥感图像分割:五大开源模型推荐
arcgis·开源
暖光资讯2 小时前
前行者获2025抖音最具影响力品牌奖,亮相上海ZFX装备前线展,引领外设行业“文化科技”新浪潮
人工智能·科技