SWE benchmark 安装全过程

木枷2026-02-04 8:48

在所有步骤之前，请你先开个代理，就是export http那些，不然会遇到各种问题。

bash 复制代码

# 下载 Miniconda 安装脚本
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O miniconda.sh

bash 复制代码

# 运行安装
bash miniconda.sh -b -p $HOME/miniconda3

# 初始化 conda
$HOME/miniconda3/bin/conda init bash

# 重新加载 shell
source ~/.bashrc

bash 复制代码

conda create -n swe-bench python=3.10 -y
conda activate swe-bench
pip install datasets

# 3. 克隆并安装 SWE-bench
git clone https://github.com/princeton-nlp/SWE-bench.git
cd SWE-bench
pip install -e .

现在已经配置好了环境，但是请注意，这个SWE bench是会创建docker的，所以请不要在docker容器里运行，建议找一个宿主机运行。

bash 复制代码

python -m swebench.harness.run_evaluation \
    --predictions_path gold \
    --max_workers 1 \
    --instance_ids sympy__sympy-20590 \
    --run_id validate-gold

跑完简单的gold基准测试后，我其实还是不太懂这个swe bench，我现在打算继续测试这个bench。

有三种Patch可以选择，开始一个个测试。

mini-swe-agent

到达和SWE-bench平行的文件位置（不要把SWE-agent作为swe-bench的子文件）

bash 复制代码

git clone https://github.com/SWE-agent/mini-swe-agent.git
cd mini-swe-agent
pip install -e .

在运行测试之前，先使用docker把镜像拉下来，不然可能会因为docker pull太慢，导致超时。

bash 复制代码

DOCKER_CLIENT_TIMEOUT=600 docker pull --disable-content-trust swebench/sweb.eval.x86_64.sympy_1776_sympy-20590:latest

然后输入指令

bash 复制代码

mini-extra config set DEEPSEEK_API_KEY "你的key"

然后再测试。

bash 复制代码

mini-extra swebench-single \
  --subset lite \
  --split test \
  --model deepseek/deepseek-chat \
  -i sympy__sympy-20590

SWE-agent

暂无

Live-SWE-agent

暂无