一文了解机器学习顶会ICML 2024的研究热点

对人工智能研究领域前沿方向的跟踪是提高科研能力和制定科研战略的关键。本文通过图文并茂的方式介绍了ICML 2024的研究热点，帮助读者了解和跟踪机器学习和人工智能的前沿研究方向。本推文的作者是许东舟，审校为邱雪和黄星宇。

1 会议介绍

ICML（International Conference on Machine Learning，国际机器学习会议）创办于1980年，由国际机器学习协会主办，每年举办一次。作为人工智能(Artificial Intelligence, AI)和机器学习领域中最具有影响力的会议之一，它的讨论主题领域广泛，列举如下。

(1)通用机器学习：包括主动学习、聚类、在线学习、排名、强化学习、监督学习、半监督学习和自监督学习、时间序列分析等。

(2)深度学习：架构、生成模型、深度强化学习等。

(3)学习理论：博弈论、统计学习理论等。

(4)优化：凸优化和非凸优化、矩阵/张量方法、随机优化、在线优化、非光滑优化、复合优化等。

(5)概率推理：贝叶斯方法、图形模型、蒙特卡洛方法等。

(6)可信机器学习：问责制、因果关系、公平性、隐私性、稳健性等。

(7)应用：计算生物学、众包、医疗保健、神经科学、社会公益、气候科学等。

2 ICML 2024

第41届机器学习国际会议（ICML 2024）于7月21日至27日在奥地利维也纳召开，以线上线下结合的方式举行。除了主要的会议环节，还包括展览会、Tutorials和Workshops。

本次会议共接收了近一万篇论文，其中有2609 篇被录用，录用率约为27%。与去年相比，论文的提交和录用数量均有显著增长，但录用率有略微下降。这一趋势说明AI顶级会议的影响力正在持续扩大，同时竞争的激烈程度也在不断增加。ICML近五年的录用情况如表1所示。

表1 ICML 近五年录用情况

会议的官方主页： 2024 Conferencehttps://icml.cc/

3 热点分析

表2列出了在本次会议中，被录用的2609篇论文标题中的20个高频主题词。

表2 录用论文标题中出现的高频主题词

随着GPT-4在2023年受到各界的广泛关注，以及视频生成模型Sora在今年初爆红出圈，生成式模型已经成为了AI领域中最受瞩目的热点之一，这一趋势也在各大顶级学术会议和期刊中得以体现。例如，表2中，语言模型（ Language Model ）和大语言模型（ Large Language Model ）的出现次数分别高达221 次和117 次。还有近期凭借强大的文生图、文生视频能力，热度一直居高不下的扩散模型（ Diffusion Model ）也出现了 65次。

值得注意的是，尽管近期出现了一些宣称全面超越Transformer的模型（实际效果仍需进一步验证），但从目前来看，Transformer 依然是 AI 领域中最主流的模型之一 ，在统计中出现了110次。

对模型性能的优化也是本次会议中的热门研究方向，比如优化（ Optimization） 、强化学习（ Reinforcement Learning） 、高效（ Efficient） 、自适应（ Adaptive） 等关键词分别出现了143 、141 和127 和62 次。这些技术不仅提升了模型的运算效率、降低了对训练及存储的需求，同时还在自动驾驶、智能机器人等领域中展示出了巨大的价值。此外，智能体（ Agent）和多模态（Multimodal / Multi-modal） 作为具有广阔应用前景的研究方向，在本次会议的论文标题中也分别被提及了59 次和41次。

4 大语言模型研究热点

图1 大语言模型研究热点

图1展示了基于ICML 2024大语言模型研究热点生成的词云图，涵盖高效 (Efficient) 、安全性 (Safty) 、多模态 (Multimodal) 、智能体 **(Agent)**等研究领域，与本次会议的热点方向较为契合。下面是对大语言模型研究热点的详细介绍：

随着大模型参数规模的不断扩大，计算成本、能耗和推理效率成为了目前最大的挑战，如何在保证模型性能的同时提高效率是研究的重点。因此，高效和优化(Optimization)是本次会议中大语言模型最受关注的研究方向之一。

安全性是另一个关键研究主题，这主要是因为大语言模型的内部机制复杂，并且决策过程不透明。确保它们的行为符合人类意图，从而避免造成潜在风险至关重要。图1中的可解释性(Interpretability)、幻觉(Hallucination)、基于人类反馈的强化学习(RLHF)等主题也都与安全性密切相关。

推理(Inference/ Reasoning)是大语言模型在处理推理任务时的核心能力。其中Inference侧重于从已知信息中推导结论，如因果推理和逻辑推理等；Reasoning则更注重如何处理多个信息之间的联系，并通过逻辑推理一步步得出结论。例如思维链(Chain-of-Thought)这类技术就是通过明确分步推理来提升模型在复杂问题上的表现。

评估(Evaluation)贯穿整个模型的开发流程，是衡量模型性能和改进效果的关键环节。随着模型和任务复杂度的不断增加，合理设置针对多模态生成和跨领域任务的评估标准，不仅是当前大语言模型研究的难点，同时也是重点。

此外，数据生成(Data Generation)、文本检测(Text Detection)以及大语言模型在医学(healthcare LLM)、数学(Math LLM)、时间序列预测(Time Series Forecasting)、电子商务(E-commerce)等领域的应用，也展示了大语言模型在广泛领域中的巨大应用潜力。

5 最佳论文

表3总结了ICML 2024的10篇最佳论文，研究方向涵盖了大语言模型、扩散模型、隐私安全和模型优化等多个领域。

其中，大语言模型和扩散模型是最佳论文中的热门研究领域，与其相关的论文在10篇中占到了6成（表3中以下划线标出）。反映了当前AI领域中最前沿的进展。例如，多模态视频生成模型VideoPoet能够通过结合图像、文本和音频的输入，生成高保真视频内容，实现零样本视频生成；而Stable Diffusion 3则优化了图像合成的扩散流程，以生成高分辨率图像的生成。

表3 ICML 2024最佳论文