【AI读论文】AutoML的8年回顾:分类、综述与趋势

论文标题:Eight years of AutoML: categorisation, review and trends

论文链接:https://link.springer.com/article/10.1007/s10115-023-01935-1

本文主要围绕自动机器学习(AutoML)展开了系统性的文献综述,总结了该领域的主要观点和发现。以下是对每个章节的主要观点的归纳总结:

  1. 摘要
  • AutoML的目的:解决机器学习方法在实际应用中所需的技术知识和背景,以及耗时和重复的步骤,使其更加实用。

  • AutoML的发展历程:自2014年出现以来,AutoML领域的发表数量显著增长。

  • 主要技术趋势:神经架构搜索(NAS)的增长明显,算法选择问题逐渐被工作流程组合所取代。

2. 理论背景

  • AutoML的目的:自动化机器学习过程中的各个阶段和任务,以及应用的技术。

  • AutoML的主要任务:超参数优化、神经架构搜索、算法选择和工作流程组合。

3. 综述方法

  • 研究问题:对AutoML领域的研究进行了四个主要问题的调查,包括术语的提取、定量发展趋势、自动化阶段和技术的覆盖范围,以及未来的趋势和开放性问题。

4. AutoML分类法

AutoML分类方法是根据文献综述中提出的三维分类法,对AutoML方法进行分类的一种方法。这个分类方法包括三个维度:自动化的知识发现过程阶段、执行的任务以及应用的技术。让我们对这三个维度进行更详细的介绍:

  • 自动化的知识发现过程阶段:这个维度涉及到AutoML方法所涉及的知识发现过程的不同阶段,例如数据预处理、数据挖掘和后处理等。文献综述发现,AutoML主要集中在数据挖掘阶段,而对于预处理和后处理阶段的自动化研究相对较少。这个维度的分类可以帮助研究人员了解不同AutoML方法在知识发现过程的不同阶段上的应用情况。

  • 执行的任务:这个维度涉及到AutoML方法所执行的具体任务,例如超参数优化、神经架构搜索、算法选择和工作流程组合等。文献综述发现,AutoML方法主要集中在超参数优化和神经架构搜索等任务上。这个维度的分类可以帮助研究人员了解不同AutoML方法在执行不同任务时所采用的方法和技术。

  • 应用的技术:这个维度涉及到AutoML方法所应用的具体技术和方法,例如进化算法、贝叶斯优化、梯度下降等。文献综述发现,不同的AutoML方法采用了不同的技术和方法来解决自动化问题。这个维度的分类可以帮助研究人员了解不同AutoML方法所采用的技术和方法的差异和特点。

这个三维分类法为AutoML方法的分类提供了一个全面的框架,帮助研究人员更好地理解和比较不同的AutoML方法。

5. 定量结果

  • 发现AutoML领域的研究数量自2014年以来呈现显著增长,2021年的发表数量几乎是2014年的五倍。

  • 发现AutoML主要集中在数据挖掘阶段,而其他阶段的自动化研究相对较少。

AutoML历年相关论文数量

6. 质性结果

  • 发现AutoML领域的主要研究集中在数据挖掘阶段,而对于预处理和后处理阶段的自动化研究相对较少。

  • 发现AutoML方法倾向于将自动化过程视为黑匣子问题,限制了生成模型的可解释性或关于达到生成解决方案的过程的解释。

7. 阶段、任务和技术的交叉分析

对AutoML方法在不同维度之间的关系进行了分析。这个分析旨在揭示不同阶段、任务和技术之间的关联,以便更好地理解当前的AutoML研究趋势和存在的挑战。

  • 阶段和任务的关系:通过分析不同任务在自动化知识发现过程的不同阶段中的应用情况,研究人员发现了一些趋势和模式。例如,他们可能发现某些任务在特定阶段中的应用频率较高,而在其他阶段中较低。这有助于了解不同任务在知识发现过程中的角色和重要性。

  • 任务和技术的关系:通过分析不同任务所应用的技术和方法,研究人员可以揭示不同任务所采用的技术趋势。例如,他们可能发现某些任务更倾向于采用特定的技术或方法,而其他任务则更倾向于采用不同的技术。这有助于了解不同任务所涉及的技术和方法的差异和特点。

这种交叉分析有助于揭示AutoML研究中不同维度之间的关系,为研究人员提供了更深入的理解和见解。这种分析有助于发现当前的研究趋势、存在的挑战以及未来的研究方向。

8. 开放性问题、挑战和趋势

在挑战部分,研究人员指出了AutoML领域面临的一些挑战和问题,并对未来的发展趋势进行了推测和讨论。

  • 未覆盖的阶段:研究发现,AutoML主要集中在数据挖掘阶段,而对于预处理和后处理阶段的自动化研究相对较少。这意味着AutoML方法尚未涵盖整个知识发现过程,而是集中在部分阶段的自动化上。这表明未来的研究需要更多地关注知识发现过程中其他阶段的自动化,以实现更全面的自动化支持。

  • 缺乏互操作性:目前的AutoML方法通常只自动化知识发现过程的单个阶段,而缺乏不同方法之间的互操作性。这意味着不同的AutoML方法往往是孤立的,难以相互配合和复用。未来的研究需要考虑如何实现不同AutoML方法之间的互操作性,以便更好地支持整个知识发现过程的自动化。

  • 人类角色的作用:AutoML方法通常作为黑匣子方法,缺乏对生成模型的解释和人类参与的支持。未来的研究需要考虑如何将人类纳入AutoML系统的自动化过程中,以实现更好的交互和指导。此外,未来的研究还需要关注如何生成可解释的模型,以便更好地支持人类的理解和解释。

  • 实证验证和可复制性:研究发现,许多AutoML方法在实验验证方面存在一些不足。例如,一些方法只是与简单的机器学习基准进行比较,而缺乏与其他研究的比较。此外,一些方法也缺乏适当的统计框架支持。未来的研究需要更加重视实证验证和可复制性,以确保AutoML方法的有效性和可靠性。

这些挑战和问题为AutoML领域的未来发展提出了一些重要的方向和目标。未来的研究需要关注如何解决这些挑战,以实现更全面、有效和可靠的AutoML方法。

  1. 结论
  • AutoML仍然是一个新兴的领域,面临着许多有前途的挑战,尤其是在神经架构搜索方面的显著发展趋势。

  • 提出了一个AutoML分类法,将有助于未来研究的分类,并为对AutoML感兴趣的研究人员和从业者提供参考。

这些总结突出了AutoML领域的主要发现和趋势,为该领域的研究和实践提供了有价值的见解。

相关推荐
Beau_Will几秒前
数据结构-树状数组专题(1)
数据结构·c++·算法
迷迭所归处5 分钟前
动态规划 —— 子数组系列-单词拆分
算法·动态规划
爱吃烤鸡翅的酸菜鱼5 分钟前
Java算法OJ(8)随机选择算法
java·数据结构·算法·排序算法
deephub28 分钟前
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
人工智能·深度学习·transformer·大语言模型·注意力机制
搏博40 分钟前
神经网络问题之二:梯度爆炸(Gradient Explosion)
人工智能·深度学习·神经网络
KGback1 小时前
【论文解析】HAQ: Hardware-Aware Automated Quantization With Mixed Precision
人工智能
寻找码源1 小时前
【头歌实训:利用kmp算法求子串在主串中不重叠出现的次数】
c语言·数据结构·算法·字符串·kmp
Matlab精灵1 小时前
Matlab科研绘图:自定义内置多款配色函数
算法·matlab
电子手信1 小时前
知识中台在多语言客户中的应用
大数据·人工智能·自然语言处理·数据挖掘·知识图谱
不高明的骗子1 小时前
【深度学习之一】2024最新pytorch+cuda+cudnn下载安装搭建开发环境
人工智能·pytorch·深度学习·cuda