技术栈

swe

闲人编程
4 天前
大数据·人工智能·python·算法·agent·智能体·swe
Agent的评估体系(AgentEval):如何判断一个Agent好坏?“一个在SWE-bench上拿95分的Agent,放到你的生产环境里可能连30分都拿不到。不是Agent变弱了,而是基准测试变‘假’了。当模型学会了如何‘考高分’而不是‘做对事’,我们需要一套全新的评估哲学。”
木枷
2 个月前
人工智能·软件工程·swe
Immersion in the GitHub Universe: Scaling Coding Aents to Mastery近年来,基于大语言模型(LLM)的代码智能体因其在处理复杂软件工程(SWE)任务方面所展现出的潜力而受到广泛关注(Anthropic, 2025a; Google, 2025; OpenAI, 2025),这一趋势在 SWE-bench(Jimenez et al., 2023)及其后续基准测试(Zhang et al., 2025)中得到了充分体现。然而,这些智能体的进一步发展从根本上受制于高质量训练数据的匮乏。与常规代码生成任务不同,软件工程任务要求智能体在可执行环境中运作,需要其在现有代码库中进行导
我是有底线的