SWE benchmark 安装全过程

在所有步骤之前,请你先开个代理,就是export http那些,不然会遇到各种问题。

bash 复制代码
# 下载 Miniconda 安装脚本
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O miniconda.sh
bash 复制代码
# 运行安装
bash miniconda.sh -b -p $HOME/miniconda3

# 初始化 conda
$HOME/miniconda3/bin/conda init bash

# 重新加载 shell
source ~/.bashrc
bash 复制代码
conda create -n swe-bench python=3.10 -y
conda activate swe-bench
pip install datasets

# 3. 克隆并安装 SWE-bench
git clone https://github.com/princeton-nlp/SWE-bench.git
cd SWE-bench
pip install -e .

现在已经配置好了环境,但是请注意,这个SWE bench是会创建docker的,所以请不要在docker容器里运行,建议找一个宿主机运行。

bash 复制代码
python -m swebench.harness.run_evaluation \
    --predictions_path gold \
    --max_workers 1 \
    --instance_ids sympy__sympy-20590 \
    --run_id validate-gold

跑完简单的gold基准测试后,我其实还是不太懂这个swe bench,我现在打算继续测试这个bench。

有三种Patch可以选择,开始一个个测试。

  1. mini-swe-agent

到达和SWE-bench平行的文件位置(不要把SWE-agent作为swe-bench的子文件)

bash 复制代码
git clone https://github.com/SWE-agent/mini-swe-agent.git
cd mini-swe-agent
pip install -e .

在运行测试之前,先使用docker把镜像拉下来,不然可能会因为docker pull太慢,导致超时。

bash 复制代码
DOCKER_CLIENT_TIMEOUT=600 docker pull --disable-content-trust swebench/sweb.eval.x86_64.sympy_1776_sympy-20590:latest

然后输入指令

bash 复制代码
mini-extra config set DEEPSEEK_API_KEY "你的key"

然后再测试。

bash 复制代码
mini-extra swebench-single \
  --subset lite \
  --split test \
  --model deepseek/deepseek-chat \
  -i sympy__sympy-20590
  1. SWE-agent

暂无

  1. Live-SWE-agent

暂无

相关推荐
云器科技3 小时前
云器Lakehouse 2026年5月版本发布:拥抱 AI Agent,重塑数据智能开发新范式
人工智能
小鹰-上海鹰谷-电子实验记录本3 小时前
第六届党建引领科创生态座谈会 | 邓光辉博士出席分享AI赋能创新药科研新范式
人工智能·ai·电子实验记录本·药企合规
极客老王说Agent3 小时前
2026电信IDC机房巡检深度报告:人工巡检频次和深度够吗?实在Agent重塑智慧运维新范式
人工智能·ai·chatgpt
海兰3 小时前
【水浒传:第二篇】AI江湖 —项目详细设计指南(一)
jvm·人工智能·游戏
AI客栈3 小时前
Go Channel 事件分发:K8s 控制器升级零中断实践
人工智能
Bruce_Liuxiaowei3 小时前
Prompt注入_我的AI编码助手被策反了
人工智能·ai·prompt·提示词·智能体
CryptoPP3 小时前
快速对接东京证券交易所API数据:实战指南与代码示例
开发语言·人工智能·windows·python·信息可视化·区块链
米小虾4 小时前
AI Agent 上下文管理实战:让你的智能体不再"失忆"
人工智能·agent
凌云拓界4 小时前
文件管理:让AI安全操作你的电脑 ——CogitoAgent开发实战(三)
javascript·人工智能·架构·开源·node.js