会议热点扫描|机器学习顶级会议ICML 2025的研究热点与最新趋势分析

本推文回顾了2025年机器学习顶级会议《International Conference On Machine Learning》(简称ICML)录用的论文,并对录用论文的关键词与研究主题进行了汇总,对研究热点进行了深入分析,希望能为相关领域的研究人员提供有价值的参考。

本文作者为:黄忠祥,审核为:王一鸣、龚裕涛

一、ICML2025 会议介绍

ICML(International Conference on Machine Learning)是由国际机器学习学会(IMLS)主办的顶级学术会议,作为机器学习领域历史最悠久、影响力最深远的会议之一,被中国计算机学会(CCF)评为A类会议,ICML始终聚焦机器学习理论与实践的核心突破,汇集了全球顶尖的研究者、工程师和行业领袖,其发布的研究成果长期引领着全球机器学习领域的发展方向,是连接学术界创新与工业界应用的关键桥梁。

会议官网:https://icml.cc/Conferences/2025

二、ICML2025 会议录用情况

ICML2025于2025年7月13日至19在温哥华会议中心开。本次会议共收到12107篇有效投稿,创历史新高,其中3260篇被接收,录用率约为26.93%。会议涵盖大语言模型优化、生成式AI、隐私计算、强化学习、图神经网络等多个前沿方向,为全球机器学习社区提供了高水平的学术交流与成果展示平台。

与往届相比,2025年投稿量同比增长约28%,但录用率较2024年的30.5%略有下降,体现出ICML一贯严格的评审标准。整体来看,近年ICML的投稿数量持续攀升,而录用率呈轻微下降趋势,这一方面保证了会议的学术质量,另一方面也反映出机器学习领域研究活跃度的不断提升。相关年度录取情况如图1所示。

图1 ICML近年录取情况

三、热点分析

表1 ICML2025关键词分析

|--------|-----------------------------|----------|
| 排名 | 关键词 | 出现次数 |
| 1 | large language model (LLM) | 189 |
| 2 | diffusion models | 142 |
| 3 | federated learning | 115 |
| 4 | reinforcement learning | 98 |
| 5 | multimodal learning | 87 |
| 6 | graph neural networks (GNN) | 76 |
| 7 | contrastive learning | 68 |
| 8 | privacy preservation | 63 |
| 9 | transformer | 59 |
| 10 | semantic segmentation | 54 |
| 11 | anomaly detection | 49 |
| 12 | bayesian optimization | 45 |
| 13 | medical ai | 42 |
| 14 | point cloud processing | 39 |
| 15 | few-shot learning | 38 |

表2 重点领域分析

|--------------|---------------------------|-----------|
| 研究领域 | 包含关键词 | 总出现次数 |
| 大语言模型与生成式 AI | LLM、扩散模型、Transformer、知识蒸馏 | 426 |
| 隐私计算与分布式学习 | 联邦学习、隐私保护、去中心化学习 | 194 |
| 强化学习与智能体 | 强化学习、具身智能、多智能体协作 | 138 |
| 计算机视觉 | 语义分割、点云处理、图像生成 | 137 |
| 表征与优化学习 | 对比学习、贝叶斯优化、少样本学习 | 151 |

表1和表2基于ICML2025会议录用论文的关键词数据,统计了高频主题词并生成如图2所示的词云图。通过对高频主题词的深度拆解,当前机器学习领域的研究热点高度聚焦于技术实用化、跨域融合与安全落地三大方向,具体可归纳为以下核心领域:

首先是大语言模型与生成式AI的深度迭代。大语言模型(Large Language Models, LLMs)以189次的高频出现成为核心焦点,例如文献《EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents》提出了一套面向视觉驱动具身智能体的全面基准,涵盖1,128个测试任务与多个能力子集,用以评估多模态LLM在视觉感知、指令理解与空间推理等具身任务中的表现,为研究者比较模型优劣并指明改进方向。与此同时,扩散模型(Diffusion Models)作为生成式人工智能(AI)的关键技术,在相关研究中以142次的高频提及保持着高热度,近年来该方向的研究重心从单纯追求"更高保真度"的图像生成,逐步转向更加贴近应用的"场景适配"和跨模态生成,例如文本到3D的生成与动态图像/视频生成等任务均采用或改进了扩散框架,相关工作展示了在跨模态一致性与时序动态建模上的显著进展。目前,该领域在文本到3D生成、动态视频生成等跨模态场景中成果显著,《Tackling View-Dependent Semantics in 3D Language Gaussian Splatting》便是这一方面的代表文献。

其次是隐私计算与分布式学习技术的持续成熟。联邦学习(Federated Learning)以115次的高频出现成为该领域的核心范式,其研究重点主要集中在数据异构适配与性能平衡两大方向。其中,非IID(独立同分布)数据带来的精度损失仍是联邦学习落地的关键挑战。学界通常通过拓宽模型表示能力、改进模型聚合策略或引入个性化机制来缓解这一问题,从而提升其在金融、医疗等敏感场景中的可用性。在这一方向中,代表性工作《FedSSI: Rehearsal-Free Continual Federated Learning with Synergistic Synaptic Intelligence》提出了一种无数据重放的持续联邦学习方案,利用突触智能协同机制有效抑制因数据异构与任务迁移导致的性能衰减,同时避免隐私泄露与额外存储开销,显著增强了持续联邦学习的实用性。与联邦学习的发展相呼应的是隐私保护技术的同步升级。随着隐私保护(Privacy Preservation)相关研究的持续增长,差分隐私算法优化与去中心化安全方案愈发成熟,为AI系统在合规要求下落地提供了稳固支撑。例如,《Kona: An Efficient Privacy-Preservation Framework for KNN Classification by Communication Optimization》通过通信优化构建高效的KNN隐私保护框架,实现了在安全性与效率之间的平衡。整体来看,联邦学习与隐私保护技术正加速融合,共同推动形成"联邦学习+隐私保护"的一体化落地路径。

随后,强化学习(Reinforcement Learning)与图神经网络(Graph Neural Networks, GNN)因其结构特性展现出极强的场景适配能力,相关研究逐渐形成明确的应用导向。强化学习方面,研究重点集中在具身智能与多智能体协作领域,通过提升样本效率的学习算法,大幅降低了机器人交互、游戏决策等高成本场景的训练开销。值得关注的是,《CollabLLM: From Passive Responders to Active Collaborators》尽管以大语言模型为核心,但其提出的主动协作机制为多智能体协同决策提供了新的思路,也为跨模态智能体在复杂任务中的协作优化带来了启发。GNN方向在分子模拟、社交网络分析等图结构数据场景持续深化应用。面对复杂拓扑关系带来的表征偏差问题,学界通过引入图不变性学习、摘要图引导的不变子图识别方法以及OOD泛化技术取得了实质性进展。其中,《Do We Really Need Message Passing in Brain Network Modeling?》一文反思了传统GNN消息传递机制在脑网络建模中的必要性,为优化复杂生物网络的表征学习提供了全新视角。

最后,AI技术的跨学科融合与产业化落地持续加速。医疗AI(Medical AI)、药物发现(Drug Discovery)等垂直领域相关关键词进入高频榜单,体现出机器学习与生物医药场景的深度结合,代表性研究成果不断涌现。例如,《PyTDC: A Multimodal Machine Learning Training, Evaluation, and Inference Platform for Biomedical Foundation Models》构建了生物医学基础模型的全流程支撑平台,覆盖多模态数据处理、模型训练与标准化评测等关键环节;《GenMol: A Drug Discovery Generalist with Discrete Diffusion》则基于离散扩散模型提出通用分子生成框架,为高通量药物筛选与新分子设计提供了新的技术路径。

ICML2025的研究热点呈现出更强的多模态化与应用导向:大语言模型与生成式AI持续主导,并在效率提升与跨模态适配上取得突破;隐私计算与联邦学习稳步成熟,强化了安全合规场景中的落地能力;强化学习与图神经网络在具身智能、分子模拟等结构化任务中不断深化;同时,医疗AI、药物发现等跨学科领域快速增长,推动机器学习从模型创新走向系统性落地与实际价值转化。

图2 ICML2025高频词汇词云图

四、获奖论文

ICML2025评选出了多篇具有突出贡献的优秀论文,其中包括:

1.Kim, J., et al. (2025). Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions. In Proceedings of the 42nd International Conference on Machine Learning (ICML).

论文下载:https://arxiv.org/pdf/2502.06768

2.Fischer Abaigar, U., et al. (2025). The Value of Prediction in Identifying the Worst-Off. In Proceedings of the 42nd International Conference on Machine Learning (ICML).

论文下载:https://arxiv.org/pdf/2501.19334

3.Wu, S., et al. (2025). CollabLLM: From Passive Responders to Active Collaborators. In Proceedings of the 42nd International Conference on Machine Learning (ICML).

论文下载:https://arxiv.org/pdf/2502.00640

4.Nagarajan, V., et al. (2025). Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction. In Proceedings of the 42nd International Conference on Machine Learning (ICML).

论文下载:https://arxiv.org/pdf/2504.15266

5.Snell, J. C., & Griffiths, T. L. (2025). Conformal Prediction as Bayesian Quadrature. In Proceedings of the 42nd International Conference on Machine Learning (ICML).

论文下载:https://arxiv.org/pdf/2502.13228

6.Givens, J., et al. (2025). Score Matching with Missing Data. In Proceedings of the 42nd International Conference on Machine Learning (ICML).

论文下载:https://arxiv.org/pdf/2506.00557

相关推荐
高木木的博客6 小时前
数字架构智能化测试平台(1)--总纲
人工智能·python·nginx·架构
wanghowie6 小时前
11. AI 客服系统架构设计:不是调 API,而是系统工程
人工智能·系统架构
袋鼠云数栈UED团队6 小时前
基于 OpenSpec 实现规范驱动开发
前端·人工智能
Raink老师6 小时前
【AI面试临阵磨枪】什么是 Tokenization?子词分词(Subword)的优缺点?
人工智能·ai 面试
迷你可可小生7 小时前
面经(三)
人工智能·rnn·lstm
云烟成雨TD7 小时前
Spring AI Alibaba 1.x 系列【28】Nacos Skill 管理中心功能说明
java·人工智能·spring
AI医影跨模态组学7 小时前
Cancer Letters(IF=10.1)中科院自动化研究所田捷等团队:整合纵向MRI与活检全切片图像用于乳腺癌新辅助治疗反应的早期预测及个体化管理
人工智能·深度学习·论文·医学·医学影像
oioihoii7 小时前
Graphify 简明指南
人工智能
王飞飞不会飞7 小时前
Mac 安装Hermes Agent 过程记录
运维·深度学习·机器学习
数字供应链安全产品选型7 小时前
AI全生命周期安全:从开发到下线,悬镜安全灵境AIDR如何覆盖智能体每一个环节?
人工智能