OpenAI 全新基准工具：75 个 Kaggle 任务，全面测试 AI 代理能力

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

微信公众号｜搜一搜：蚝油菜花

🚀 快速阅读

MLE-bench 是 OpenAI 推出的全新基准测试工具，专为评估 AI 代理在机器学习工程任务中的表现而设计。
该工具包含 75 个来自 Kaggle 的竞赛任务，覆盖多个领域，全面模拟真实机器学习工程挑战。
MLE-bench 提供标准化评估平台，支持 AI 代理自主完成任务流程，助力算法研究和教育应用。

正文（附运行示例）

MLE-bench 是什么

MLE-bench 是 OpenAI 开发的一款创新性基准测试工具，用于全面评估 AI 代理在机器学习工程任务中的表现。它包含了 75 个来自 Kaggle 的竞赛任务，覆盖了自然语言处理、计算机视觉和信号处理等多个领域，提供了一个标准化的评估平台。在这个平台上，AI 代理可以自主完成从理解任务描述、数据预处理、模型训练到结果提交的整个流程，最终根据排行榜得分来评估其能力。

MLE-bench 的主要功能

性能评估：为 AI 代理在机器学习工程任务中的表现提供标准化的评估。
任务模拟：精选 75 个 Kaggle 竞赛任务，模拟真实的机器学习工程挑战。
自主执行：支持 AI 代理在没有人类干预的情况下，自主完成整个任务流程。

MLE-bench 的技术原理

数据集和任务设计：从 Kaggle 选取 75 个不同领域的竞赛，形成多样化的任务集合。
代理执行框架：提供必要的工具和接口，支持 AI 代理执行各项操作。
自动化评估：基于 Kaggle 竞赛排行榜，自动评估 AI 代理的性能。
资源管理：支持调整计算资源和时间限制，研究这些因素对 AI 代理性能的影响。

如何运行 MLE-bench

安装和设置

首先，确保你已经安装了 Git-LFS 来处理大型文件：

bash 复制代码

git lfs fetch --all
git lfs pull

然后，使用 pip 安装mlebench：

bash 复制代码

pip install -e .

准备数据集

使用 Kaggle API 下载并准备数据集，确保你的 Kaggle 凭证（kaggle.json）放置在~/.kaggle/目录中：

bash 复制代码

mlebench prepare --all

你也可以为特定竞赛准备数据集：

bash 复制代码

mlebench prepare -c <competition-id>

评分提交

提交文件必须为 CSV 格式，使用mlebench grade命令进行评分：

bash 复制代码

mlebench grade <PATH_TO_JSONL_FILE>

例如，为 Spaceship Titanic 竞赛评分：

bash 复制代码

mlebench grade-sample <PATH_TO_SUBMISSION> spaceship-titanic

环境配置

构建基础 Docker 镜像：

bash 复制代码

docker build --platform=linux/amd64 -t mlebench-env -f environment/Dockerfile .

资源

MLE-bench GitHub 仓库：https://github.com/openai/mle-bench/
MLE-bench 技术论文：https://arxiv.org/pdf/2410.07095
Kaggle API：https://github.com/Kaggle/kaggle-api
Git-LFS：https://git-lfs.com/

微信公众号｜搜一搜：蚝油菜花