ABSTRACT
大型语言模型(LLMs)在软件工程(SWE)领域的应用日益广泛,SWE-bench 已成为该领域的核心评测基准[key benchmark]。现有解决方案可分为两类范式:一类是基于多轮交互的 SWE-Agent 框架[SWE-Agent frameworks with multi-turn interactions] ,另一类是基于单轮可验证步骤的工作流驱动 Agentless 方法[workflow-based Agentless methods with single-turn verifiable steps] 。我们认为,这两种范式并非相互排斥:推理密集型[reasoning-intensive]的 Agentless 训练能够诱导形成技能先验[skill priors],涵盖故障定位、代码编辑与自我反思等能力,从而实现高效且有效的 SWE-Agent 适配。在本研究中,我们首先系统整理了 Agentless 训练方案,并由此推出 Kimi-Dev------一个开源 SWE 大语言模型,在 SWE-bench Verified 上取得了 60.4% 的成绩,位居工作流方法之首。在此基础上,通过对 5k 条公开轨迹数据进行有监督微调(SFT)适配,Kimi-Dev 驱动 SWE-Agent 实现了 48.6% 的 pass@1,与 Claude 3.5 Sonnet(241022 版本)的表现不相上下。上述结果表明,Agentless 训练所形成的结构化技能先验,能够有效桥接工作流框架与智能体框架,推动可迁移编程智能体的发展。
1 INTRODUCTION
近期,大型语言模型(LLMs)在自动化软件工程(Software-Engineering, SWE)任务方面取得了迅猛发展(Jimenez et al., 2023; Yang et al., 2024a; Xia et al., 2024; Anthropic, 2024; Pan et al., 2024; Wang et al., 2025a; Wei et al., 2025; Yang et al., 2025a; Kimi et al., 2025; OpenAI, 2025c)。在追踪 LLM 编程智能体[LLM coding agents]在 SWE 场景中进展的各类基准测试中,SWE-bench(Jimenez et al., 2023)是最具代表性的基准之一:给定一个报告真实 GitHub 仓库中缺陷的 issue,模型需要生成一个修复该缺陷的补丁[patch],其正确性通过应用补丁后对应单元测试是否通过来评判。该任务本身的高难度(以基准提出时的标准而言)、所提供的自动评测框架[auto-eval harness]带来的结果奖励信号的存在,以及其所反映的现实经济价值,共同使 SWE-bench 成为该领域的焦点。
针对 SWE-bench 任务,两类解决方案相继涌现。以 SWE-Agent(Yang et al., 2024a)和 OpenHands(Wang et al., 2025a)为代表的基于智能体的解决方案采用交互主义路径:在任务描述[task description]、可用工具集[available tools]及具体问题陈述[specific problem statement]的引导下,智能体需与可执行环境进行多轮交互,对源代码进行修改,并自主决定何时停止。
与之相对,以 Agentless(Xia et al., 2024)为代表的工作流方法将求解过程预先定义为一条流水线,包含故障定位[localization]、缺陷修复[bug repair]和测试构造[test composition]等步骤。这种任务分解将智能体任务转化为一系列具有可验证奖励的单轮问题的正确响应生成(Guo et al., 2025; Wei et al., 2025; He et al., 2025)。
长期以来,这两种范式[paradigms]被普遍视为相互排斥的。一方面,SWE-Agent 天然具有更高的潜力和更强的适应性,这得益于多轮交互不受固定流程约束所带来的更大自由度。然而,也正因其端到端的本质[end-to-end nature],在此类框架下进行训练被证明更加困难(Luo et al., 2025; Cao et al., 2025)。
另一方面,Agentless 方法具有更好的模块化特性[modularity],且易于结合带可验证奖励的强化学习(RLVR)技术进行训练,但其探索空间和灵活性较为有限,且由于错误模式[the erroneous patterns]仅出现在单轮长推理内容中,行为监控也颇为困难(Pan et al., 2024)。
然而,我们从训练方案的视角对这一二元对立提出挑战:我们认为,Agentless 训练不应被视为最终交付物,而应被视为诱导技能先验的手段[a way to induce skill priors]------这些原子级能力[atomic capabilities]涵盖缺陷实现的定位与错误代码片段的修正,以及自我反思与验证,所有这些能力共同为更具能力且可泛化的 SWE 智能体的高效适配提供了脚手架[scaffold]。
基于这一视角,我们推出 Kimi-Dev,一个面向 SWE 任务的开源代码大语言模型。具体而言,我们首先开发了一套 Agentless 训练方案,包含中间训练[mid-training]、冷启动[cold-start] 、**强化学习[reinforcement learning]和测试时自博弈[test-time self-play]**四个阶段。
这使得模型在 SWE-bench Verified 上达到 60.4% 的准确率,位居工作流方法的最优水平。在此基础上,我们证明了 Agentless 训练能够诱导技能先验:以 Kimi-Dev 为基础,利用 5k 条公开轨迹进行最小化 SFT 冷启动,即可实现高效的 SWE-Agent 适配,并达到 48.6% 的 pass@1 分数,与 Claude 3.5 Sonnet(20241022 版本,Anthropic (2024))的表现相当。