【模型评测】SWE-bench Verified数据集-2-修复精度偏离

如果评测分数低于模型发布的精度,该怎么办?

可以调的参数

1. 提示词(影响最大)

可以直接修改 swebench.yaml 中的 system_templateinstance_template。项目里已经提供了不同风格的配置供参考:

配置文件 特点
swebench.yaml 简短提示词,无 step/cost 限制
swebench_backticks.yaml 详细的工作流指引,有明确的 patch 创建/提交指引,cwd: /testbed
swebench_xml.yaml XML 格式输出,适合对 XML 标签更好的模型

如果当前用的是默认的 swebench.yaml,强烈建议试试 swebench_backticks.yaml------它的提示词更详细,包含了分析问题→复现→修复→验证→提交的完整工作流指引,以及如何用 git diff 生成 patch 的具体说明。

2. 资源限制

参数 默认值 影响
step_limit swebench.yaml 为 0(无限),backticks/xml 为 250 太低会导致 agent 还没修完就被截断
cost_limit swebench.yaml 为 0,backticks/xml 为 3.0 太低会中途因预算不足退出
environment.timeout 60s 单条命令超时,长测试可能被截断

3. 输出格式

observation_template 控制命令输出如何返回给模型------超过 10000 字符会被截断,只显示前后 5000 字符。如果模型需要看到完整输出来做判断,可以调大阈值。

4. temperature

backticksxml 变体都设置了 temperature: 0.0(确定性输出),如果你当前没设置,加上可能有帮助。

排查步骤

  1. 先看失败实例的 trajectory :检查是 LimitsExceeded 退出(step/cost 不够)、格式解析失败、还是修复逻辑本身有问题
  2. 对比模型擅长的输出格式 :如果模型更擅长 XML 标签输出,用 swebench_xml.yaml;如果更擅长 markdown 代码块,用 swebench_backticks.yaml
  3. 逐步调大 step_limit 和 cost_limit,排除资源不足的干扰
  4. 针对特定模型微调提示词 :可以在 -c 参数中叠加覆盖,例如:
bash 复制代码
mini-extra swebench -m your-model \
  -c swebench_backticks \
  -c agent.step_limit=500 \
  -c agent.cost_limit=10.0

关于提示词调整的注意事项

提示词是可以改的,但需要注意:

  • SWE-bench Verified 的评测标准是测试是否通过,和提示词无关,所以调提示词不会影响评测的公平性
  • 不同模型对指令的遵循能力不同,提示词需要适配模型的风格(比如有的模型需要更明确的步骤指引,有的模型在简短提示下反而表现更好)
  • 建议先在小规模实例上(--slice :10)快速迭代提示词,确认效果后再跑全量
相关推荐
K姐研究社1 小时前
LibTV团队版实测 – 多人协作重构 AI 视频生产模式
人工智能·aigc·音视频
阿_旭1 小时前
一文吃透 Grounding DINO:从原理到实战,文本驱动目标检测入门教程【附源码】
人工智能·目标检测·计算机视觉·groundingdino
星云_byto1 小时前
精读双模态目标检测系列八|TGRS 顶刊力作!CMFADet 狂涨 4.02% mAP,空域频域双增强 + 通道交互融合,轻量 108FPS 缝合即涨点!
人工智能·目标检测·计算机视觉·红外图像·rgb-ir融合
codefan※1 小时前
pytorch安装流程
人工智能·pytorch·python
KaMeidebaby1 小时前
卡梅德生物技术快报|免疫共沉淀 - Co-IP 实验在转录因子 ATF3/Smad4 蛋白互作研究中的应用实例解析
网络·人工智能·网络协议·tcp/ip·其他·算法·新浪微博
C_c..1 小时前
#YOLOv11 目标检测训练结果怎么看?一文看懂 Precision、Recall、mAP 指标
人工智能·yolo·目标检测·机器学习·计算机视觉·目标跟踪
kTR2hD1qb1 小时前
深度学习进阶(二十五)RoPE:现代 NLP 的位置编码范式
人工智能·深度学习·自然语言处理
我爱cope1 小时前
【Agent智能体11 | 反思设计模式-评估反射的影响的方法】
人工智能·设计模式·语言模型·职场和发展
钓了猫的鱼儿1 小时前
基于深度学习+AI的无人机违规防控目标检测与预警系统(Python源码+数据集+UI可视化界面+YOLOv11训练结果)
人工智能·深度学习·无人机