在所有步骤之前,请你先开个代理,就是export http那些,不然会遇到各种问题。
bash
# 下载 Miniconda 安装脚本
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O miniconda.sh
bash
# 运行安装
bash miniconda.sh -b -p $HOME/miniconda3
# 初始化 conda
$HOME/miniconda3/bin/conda init bash
# 重新加载 shell
source ~/.bashrc
bash
conda create -n swe-bench python=3.10 -y
conda activate swe-bench
pip install datasets
# 3. 克隆并安装 SWE-bench
git clone https://github.com/princeton-nlp/SWE-bench.git
cd SWE-bench
pip install -e .
现在已经配置好了环境,但是请注意,这个SWE bench是会创建docker的,所以请不要在docker容器里运行,建议找一个宿主机运行。
bash
python -m swebench.harness.run_evaluation \
--predictions_path gold \
--max_workers 1 \
--instance_ids sympy__sympy-20590 \
--run_id validate-gold
跑完简单的gold基准测试后,我其实还是不太懂这个swe bench,我现在打算继续测试这个bench。
有三种Patch可以选择,开始一个个测试。
- mini-swe-agent
到达和SWE-bench平行的文件位置(不要把SWE-agent作为swe-bench的子文件)
bash
git clone https://github.com/SWE-agent/mini-swe-agent.git
cd mini-swe-agent
pip install -e .
在运行测试之前,先使用docker把镜像拉下来,不然可能会因为docker pull太慢,导致超时。
bash
DOCKER_CLIENT_TIMEOUT=600 docker pull --disable-content-trust swebench/sweb.eval.x86_64.sympy_1776_sympy-20590:latest
然后输入指令
bash
mini-extra config set DEEPSEEK_API_KEY "你的key"
然后再测试。
bash
mini-extra swebench-single \
--subset lite \
--split test \
--model deepseek/deepseek-chat \
-i sympy__sympy-20590
- SWE-agent
暂无
- Live-SWE-agent
暂无