swe

Agent的评估体系（AgentEval）：如何判断一个Agent好坏？“一个在SWE-bench上拿95分的Agent，放到你的生产环境里可能连30分都拿不到。不是Agent变弱了，而是基准测试变‘假’了。当模型学会了如何‘考高分’而不是‘做对事’，我们需要一套全新的评估哲学。”

Immersion in the GitHub Universe: Scaling Coding Aents to Mastery近年来，基于大语言模型（LLM）的代码智能体因其在处理复杂软件工程（SWE）任务方面所展现出的潜力而受到广泛关注（Anthropic, 2025a; Google, 2025; OpenAI, 2025），这一趋势在 SWE-bench（Jimenez et al., 2023）及其后续基准测试（Zhang et al., 2025）中得到了充分体现。然而，这些智能体的进一步发展从根本上受制于高质量训练数据的匮乏。与常规代码生成任务不同，软件工程任务要求智能体在可执行环境中运作，需要其在现有代码库中进行导

我是有底线的