华为:构建特征级LLM编码评测基准

📖标题:FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

🌐来源:arXiv, 2602.10975v1

🌟摘要

由大型语言模型(LLM)驱动的代理越来越多地被软件行业采用,作为协作者甚至自主开发人员贡献代码。随着它们的出现,评估其编码能力的当前边界变得非常重要。然而,现有的代理编码基准涵盖了有限的任务范围,例如,在单个拉取请求(PR)中进行bug修复,并且通常依赖于不可执行的评估或缺乏持续更新评估范围的自动化方法。为了解决这些问题,我们提出了FeatureBench,这是一个旨在评估端到端、面向功能的软件开发中代理编码性能的基准。FeatureBench结合了一个基于执行的评估协议和一个可扩展的测试驱动方法,该方法可以以最少的人力从代码存储库中自动派生任务。通过沿着依赖关系图跟踪单元测试,我们的方法可以识别跨越分散在开发时间线上的多个提交和PR的特征级编码任务,同时确保分离后其他功能的正常运行。使用这个框架,我们在基准测试的第一个版本中从24个开源存储库中策划了200个具有挑战性的评估任务和3825个可执行环境。实证评估表明,最先进的代理模型,如Claude 4.5 Opus,在SWE-bench上实现了74.4%的解析率,仅在11.0%的任务上取得成功,为推进代理编码开辟了新的机会。此外,受益于我们的自动化任务收集工具包,FeatureBench可以随着时间的推移轻松扩展和更新,以减少数据泄露。构建环境固有的可验证性也使我们的方法对代理训练具有潜在价值。

🛎️文章简介

🔸研究问题:如何科学评估大语言模型代理在真实复杂功能开发任务中的端到端编码能力?

🔸主要贡献:论文提出FeatureBench------首个面向真实特征开发、支持执行验证、可自动扩展的agentic coding基准,包含200个高难度任务与3825个可执行环境。

📝重点思路

🔸基于单元测试驱动,通过动态追踪构建函数级依赖图,精准识别与目标功能强相关的代码模块。

🔸融合Fail-to-Pass(F2P)与Pass-to-Pass(P2P)测试,确保任务既检验新功能实现,又验证原有功能完整性。

🔸采用图遍历+LLM分类双策略:用LLM识别测试文件中的顶层被测对象,再以该对象为入口进行依赖图BFS遍历,区分"保留"与"提取"节点。

🔸设计两级难度:L1为增量式仓库内开发(保留上下文),L2为完全从零实现(无代码基底),严格隔离开发场景。

🔸全自动流水线:仅需人工配置3分钟安装命令,其余全部自动化生成问题描述、补丁、测试集与Docker环境,并内置防作弊日志检测机制。

🔎分析总结

🔸当前最优代理(Claude Opus 4.5)在FeatureBench上仅解决11.0%任务,远低于其在SWE-bench的74.4%,证实特征级开发是显著更难的挑战。

🔸任务难度与代码行数呈强负相关,但与提交时间无关,说明性能瓶颈源于复杂性而非数据泄露。

🔸显式接口定义(函数签名、调用路径)对成功率至关重要:移除后解决率骤降6.7--43.3个百分点。

🔸L2(从零实现)任务解决率系统性低于L1,表明缺失代码上下文严重削弱多步推理与结构重建能力。

🔸失败主因是跨文件依赖解析错误(NameError)、接口猜测偏差(TypeError/AttributeError)及断言前逻辑正确但后续不满足(AssertionError频发),反映长程一致性建模不足。

💡个人观点

论文核心洞见是真实软件开发的挑战不在单点修复,而在功能边界界定、跨模块协同与架构一致性维护。

🧩附录

相关推荐
nhc0881 分钟前
贵阳纳海川·花卉游戏行业解决方案
人工智能·游戏·微信小程序·软件开发·小程序开发
QC777LX6 分钟前
赋能智慧出行:传统旅游顾问进阶AI行程规划师的系统化培训与职业认证
人工智能·旅游
碳基硅坊21 分钟前
在昇腾 910B2 上部署 Qwen3.5-35B-A3B
人工智能
冬奇Lab1 小时前
一天一个开源项目(第68篇):DeerFlow - 字节跳动出品的深度研究与超级智能体框架
人工智能·开源·资讯
NineData2 小时前
NineData V5.0 产品发布会:让 AI 成为数据管理的驱动力,4月16日!
数据库·人工智能·ai编程
罗西的思考2 小时前
【OpenClaw】通过 Nanobot 源码学习架构---(5)Context
人工智能·算法·机器学习
2301_764441332 小时前
claw-code:基于Claude Code架构的clean-room重写开源项目
人工智能·架构·开源
模拟器连接器曾工2 小时前
CCD定位与图像辨别的智能视觉检测系统
人工智能·计算机视觉·视觉检测·智能视觉检测系统
云栖梦泽3 小时前
AI安全合规与治理:行业发展趋势与职业展望
大数据·人工智能·安全
小陈工3 小时前
2026年4月2日技术资讯洞察:数据库融合革命、端侧AI突破与脑机接口产业化
开发语言·前端·数据库·人工智能·python·安全