SWE benchmark 安装全过程

在所有步骤之前,请你先开个代理,就是export http那些,不然会遇到各种问题。

bash 复制代码
# 下载 Miniconda 安装脚本
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O miniconda.sh
bash 复制代码
# 运行安装
bash miniconda.sh -b -p $HOME/miniconda3

# 初始化 conda
$HOME/miniconda3/bin/conda init bash

# 重新加载 shell
source ~/.bashrc
bash 复制代码
conda create -n swe-bench python=3.10 -y
conda activate swe-bench
pip install datasets

# 3. 克隆并安装 SWE-bench
git clone https://github.com/princeton-nlp/SWE-bench.git
cd SWE-bench
pip install -e .

现在已经配置好了环境,但是请注意,这个SWE bench是会创建docker的,所以请不要在docker容器里运行,建议找一个宿主机运行。

bash 复制代码
python -m swebench.harness.run_evaluation \
    --predictions_path gold \
    --max_workers 1 \
    --instance_ids sympy__sympy-20590 \
    --run_id validate-gold

跑完简单的gold基准测试后,我其实还是不太懂这个swe bench,我现在打算继续测试这个bench。

有三种Patch可以选择,开始一个个测试。

  1. mini-swe-agent

到达和SWE-bench平行的文件位置(不要把SWE-agent作为swe-bench的子文件)

bash 复制代码
git clone https://github.com/SWE-agent/mini-swe-agent.git
cd mini-swe-agent
pip install -e .

在运行测试之前,先使用docker把镜像拉下来,不然可能会因为docker pull太慢,导致超时。

bash 复制代码
DOCKER_CLIENT_TIMEOUT=600 docker pull --disable-content-trust swebench/sweb.eval.x86_64.sympy_1776_sympy-20590:latest

然后输入指令

bash 复制代码
mini-extra config set DEEPSEEK_API_KEY "你的key"

然后再测试。

bash 复制代码
mini-extra swebench-single \
  --subset lite \
  --split test \
  --model deepseek/deepseek-chat \
  -i sympy__sympy-20590
  1. SWE-agent

暂无

  1. Live-SWE-agent

暂无

相关推荐
健忘的派大星2 小时前
需求激增800%!2025年第一硬通货:懂大模型、云计算和硬件的“前沿部署工程师”!
人工智能·算法·架构·langchain·云计算·大模型学习·大模型教程
Amanda_yan2 小时前
云计算和边缘计算到底有什么不同?一文讲清楚
人工智能·云计算·边缘计算
拓端研究室3 小时前
2026年人工智能AI未来报告:智能体、元宇宙、教育、商业化落地|附400+份报告PDF、数据、可视化模板汇总下载
人工智能·百度
橙露8 小时前
数据特征工程:缺失值、异常值、标准化一站式解决方案
人工智能·机器学习
新加坡内哥谈技术8 小时前
OpenAI 的 Codex 团队如何工作并利用 AI
人工智能
星河耀银海9 小时前
人工智能大模型的安全与隐私保护:技术防御与合规实践
人工智能·安全·ai·隐私
love530love9 小时前
Scoop 完整迁移指南:从 C 盘到 D 盘的无缝切换
java·服务器·前端·人工智能·windows·scoop
njsgcs9 小时前
agentscope提取msg+llama_index 查询
人工智能
小和尚同志9 小时前
什么?oh-my-opencode 太重了?那试试 oh-my-opencode-slim
人工智能·aigc
一路往蓝-Anbo10 小时前
第 9 章:Linux 设备树 (DTS) ——屏蔽与独占外设
linux·运维·服务器·人工智能·stm32·嵌入式硬件