Google AI 发布 MLE-STAR：一款能够自动执行各种 AI 任务的先进机器学习工程代理

MLE -STAR（通过搜索和定向优化进行机器学习工程）是由Google Cloud 研究人员开发的先进代理系统，旨在自动化复杂的机器学习ML 流水线设计和优化。通过利用网络规模搜索、定向代码优化和强大的检查模块，MLE-STAR 在一系列机器学习工程任务中实现了无与伦比的性能，显着超越了之前的自主ML 代理，甚至超越了人类的基准方法。

论文：MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement

问题：机器学习工程自动化

虽然大型语言模型(LLM) 已在代码生成和工作流自动化方面取得进展，但现有的ML 工程代理仍面临以下困难：

过度依赖LLM 内存： 倾向于默认使用"熟悉"的模型（例如，仅使用scikit-learn 处理表格数据），而忽略了尖端的、特定于任务的方法。
粗略的"一次性"迭代： 以前的代理一次性修改整个脚本，缺乏对特征工程、数据预处理或模型集成等管道组件进行深入、有针对性的探索。
错误和泄漏处理不佳： 生成的代码容易出现错误、数据泄漏或遗漏提供的数据文件。

MLE-STAR：核心创新

与之前的解决方案相比，MLE-STAR 有几个关键的进步：

1. 网络搜索引导的模型选择

MLE-STAR 并非仅仅从内部"训练"中汲取经验，而是使用外部搜索来检索与给定任务和数据集相关的最先进的模型和代码片段。它将初始解决方案锚定在当前的最佳实践中，而不仅仅是LLM 所"记忆"的内容。

2. 嵌套、有针对性的代码细化

MLE-STAR 通过双循环细化过程改进其解决方案：

外循环（消融驱动）： 对不断发展的代码运行消融研究，以确定哪个管道组件（数据准备、模型、特征工程等）对性能影响最大。
内循环（重点探索）： 使用结构化反馈，以迭代方式生成并测试该组件的变体。
这使得深入的、逐个组件的探索成为可能------例如，广泛测试提取和编码分类特征的方法，而不是盲目地同时改变所有内容。

3. 自我改进的集成策略

MLE-STAR 通过组合多个候选解决方案，提出、实现并改进了新颖的集成方法。它并非仅仅采用"N 个中取最优"的投票或简单的平均方法，而是利用其规划能力探索高级策略（例如，与定制元学习器堆叠或优化权重搜索）。

4. 通过专业代理实现稳健性
调试代理： 自动捕获并纠正 Python 错误（回溯），直到脚本运行或达到最大尝试次数。
数据泄漏检查器： 检查代码以防止测试或验证样本中的信息影响训练过程。
数据使用情况检查器： 确保解决方案脚本最大限度地利用所有提供的数据文件和相关模态，从而提高模型性能和通用性。
定量结果：超越其他领域

MLE-STAR 的有效性在 MLE-Bench-Lite 基准（22 项涵盖表格、图像、音频和文本任务的具有挑战性的 Kaggle 竞赛）上得到了严格验证：

与以往最佳智能体相比，MLE-STAR 的"奖牌"（顶级）解决方案率提高了一倍以上。

在图像任务中，MLE-STAR 绝大多数选择了现代架构（EfficientNet、ViT），而将ResNet 等老牌架构抛在身后，这直接转化为更高的领奖台率。
集成策略本身就进一步提升了性能，它不仅挑选出获胜的解决方案，还整合了获胜的解决方案。

技术洞察：MLE-STAR 为何胜出

搜索作为基础： 通过在运行时从网络中提取示例代码和模型卡，MLE-STAR 可以保持最新状态- 自动在其初始提案中包含新的模型类型。
消融引导焦点： 系统地测量每个代码段的贡献可以进行"外科手术"改进- 首先针对最具影响力的部分（例如，有针对性的特征编码，高级模型特定预处理）。
自适应集成： 集成代理不仅仅是平均；它智能地测试堆叠，回归元学习器，最佳权重等。
严格的安全检查： 错误更正，数据泄漏预防和完整数据使用可解锁更高的验证和测试分数，避免绊倒原始LLM 代码生成的陷阱。
可扩展性和人机交互

MLE-STAR 也是可扩展的：

人类专家可以注入尖端的模型描述，以便更快地采用最新的架构。
该系统建立在Google 的代理开发套件(ADK) 之上，有助于开源采用和集成到更广泛的代理生态系统中，如官方示例所示。

结论

MLE-STAR 代表了机器学习工程自动化领域的一次真正飞跃 通过执行从搜索开始的工作流程，通过消融驱动循环测试代码，将解决方案与自适应集成相结合，并使用专门的代理来监管代码输出，它的表现超越了现有技术，甚至超越了许多人类竞争对手。它的开源代码库意味着研究人员和机器学习从业者现在可以在自己的项目中集成和扩展这些最先进的功能，从而加速生产力和创新。