Azure - 自动化机器学习AutoML Azure使用详解

自动化机器学习，简称为AutoML，旨在将机器学习模型的开发中繁琐且重复的任务自动化。这使得数据科学家、分析师以及开发人员能够构建高度可扩展、高效和高性能的ML模型，且不牺牲模型的质量。Azure 机器学习的AutoML功能是基于Microsoft Research团队的前沿技术而开发的。
关注TechLead，分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦机器人智能实验室成员，阿里云认证的资深架构师，项目管理专业人士，上亿营收AI产品研发负责人。

一、AutoML是如何工作的？

在训练阶段，Azure 机器学习启动多个并行管道，分别尝试不同的算法和参数组合。这个服务会不断尝试多种与特征选择相匹配的ML算法，并为每一次迭代产生一个经过评分的模型。当模型的评分更接近优化目标时，该模型便会被认为更"适合"于数据。当满足预定的终止条件时，训练过程便会结束。

要在Azure机器学习中设计并执行一个AutoML训练实验，您可以按照以下步骤进行：

明确您要解决的ML问题类型：如分类、预测、回归、计算机视觉或NLP。
决定是选择基于代码的体验还是基于Web的无代码体验：
- 对于偏好代码的用户，可以利用Azure 机器学习 SDKv2 或 Azure 机器学习 CLIv2。例如，有一个教程指导如何使用AutoML与Python来训练物体检测模型。
- 对于倾向于少量代码或无代码的用户，可以在Azure 机器学习工作室 (https://ml.azure.com) 通过Web界面来操作。例如，有一个教程介绍如何在Azure机器学习中使用AutoML构建分类模型。
指明训练数据的来源：Azure 机器学习支持多种数据输入方式。
配置AutoML的参数，包括决定模型迭代的次数、超参数设定、高级的数据预处理/特征生成策略以及用于评估模型优劣的指标。
提交您的训练任务。
分析训练结果。

二、何时考虑AutoML？

当您希望通过Azure机器学习来训练和优化模型，特定于多种目标指标时，AutoML是一个理想的选择。它能够规范化机器学习的开发流程，使不同背景的用户都能够有效地解决各种机器学习问题。

AutoML对于以下目的具有明显优势：

为非编程背景的人员提供机器学习解决方案。
节约开发和训练时间。
整合数据科学的最佳实践。
提供多种解决方案以适应不同场景。

分类：分类是一种监督学习方法，其中模型根据训练数据进行预测，以确定新数据的类别。Azure机器学习提供了专为此类任务设计的特征工程，例如深度神经网络文本特征化工具。分类的目的是基于已有的数据经验，预测新数据的归属类别。例如，手写识别、对象分类等。
回归：与分类相似，回归也是监督学习中的一种常见方法。但不同于分类的是，回归旨在预测一个连续的输出值，而不是类别标签。例如，根据特定的车辆特性预测汽车价格。
时序预测 ：预测未来趋势和模式是各种业务领域中的关键组件。使用AutoML，您可以获得高质量的时序预测。
计算机视觉 ：AutoML为计算机视觉任务提供支持，从简单的图像分类到复杂的对象检测和分割都可以应对。您可以利用Azure机器学习的强大功能，如大规模操作、模型部署和集成。
自然语言处理（NLP） ：AutoML在NLP任务中同样展现出卓越的能力。无论是文本分类还是命名实体识别，通过Azure机器学习的Python SDK，您都可以轻松地实现NLP模型的自动化训练。

总之，无论您是ML专家、开发人员，还是来自其他背景的用户，AutoML都可以为您提供有效、高效的机器学习解决方案。

三、AutoML助力训练与集成过程

训练数据

借助自动化机器学习（AutoML），您可以提交训练数据以构建模型，并指定执行的模型验证方式。在训练过程中，AutoML 通过使用验证数据和相应的算法来优化超参数，寻找与训练数据最匹配的模型配置。但由于在优化过程中反复使用相同的验证数据，可能导致模型对此数据产生偏见。为确保最终选择的模型未受此偏见影响，AutoML 允许使用独立的测试数据集进行评估。

特征工程

指的是根据数据领域的知识创造能增强机器学习算法性能的特征。Azure 机器学习提供了一系列缩放和规范化的方法简化这一过程，统称为特征化。在自动机器学习实验中，系统会默认进行特征化，但您也可以根据自己的数据进行调整。此外，还支持其他特征工程技术，如编码和转换。在Azure机器学习工作室或Python SDK中，都可以选择启用或自定义特征化。

集成模型

在自动化机器学习中也得到了支持。系综学习结合多个模型的优点，通常能获得更好的结果。AutoML 利用投票和堆叠的方法来结合模型。此外，Caruana算法用于决定系综中的模型组合，从而确保系综的性能是最优的。

ONNX格式

Azure 机器学习还允许使用AutoML来创建Python模型并将其转换为ONNX格式，这使得模型能在不同的平台和设备上执行。ONNX还提供了C#运行时，所以您可以直接在C#应用程序中使用生成的模型，这避免了网络延迟等潜在问题。

四、实战案例

实战案例可以参考官方案例：https://learn.microsoft.com/zh-cn/azure/machine-learning/tutorial-first-experiment-automated-ml?view=azureml-api-2

列出核心过程：

先决条件
创建工作区
创建自动化机器学习作业
创建数据集并将其加载为数据资产
配置作业
浏览模型
模型说明
部署最佳模型
清理资源
后续步骤

部分过程图：

五、总结

自动化机器学习也称为自动化 ML 或 AutoML，是将机器学习模型开发过程中耗时的反复性任务自动化的过程。数据科学家、分析师和开发人员可以使用它来生成高度可缩放、高效且高产能的 ML 模型，同时保证模型的质量。

关注TechLead，分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦机器人智能实验室成员，阿里云认证的资深架构师，项目管理专业人士，上亿营收AI产品研发负责人。