纯视觉的终结？顶会趋势：不会联觉（多模态）的CV不是好AI

2023年至2025年间，计算机视觉与机器学习社区经历了一场静默而深刻的变革。根据一项最新分析，视觉语言模型已成为近一半顶级会议论文的核心，传统感知任务正被重新定义为"指令跟随"与"多步推理"。

这项研究由曼彻斯特大学冯明林团队完成，他们系统分析了CVPR、ICLR和NeurIPS三大会议2023-2025年间接收的26,104篇论文的标题与摘要，通过构建的手工词典与正则表达式匹配，为每篇论文分配最多35个主题标签。

三大宏观趋势

研究发现了三个显著的宏观转变：

视觉语言模型崛起： VLM/LLM相关论文从2023年的16%飙升至2025年的40%，成为绝对主流。到2025年，CVPR和ICLR中近四成论文涉及这一方向。
生成式方法持续扩张： 扩散模型研究从8%稳步增长至19.2%，焦点从基础生成转向可控性、蒸馏与加速。
3D与视频研究保持活力： 3D研究整体稳定但内部构成变化，从神经辐射场转向高斯泼溅；视频理解持续上升，部分得益于视频LLM和长上下文建模的兴起。

图1展示了各研究方向的年度变化趋势，每条曲线代表一个研究方向的时间演变。

图2的小多图揭示了更细微的变化：生成式与多模态领域持续扩张并渗透至3D、视频和编辑任务；而自监督学习、元学习、图神经网络等传统范式相对份额下降或停滞。

与此同时，"工程与安全"主题如效率、鲁棒性和隐私在整个领域扩散，成为普遍关注点。

结构感知的3D理解也在加强，点云处理略有回升，网格和表面建模稳步上升，显示出对可控、约束感知几何的兴趣。

时间感知和以人为中心的理解获得关注，视频理解从低基数攀升，姿态、面部和全身分析在过去两年加速，标志着向智能体和以人为中心应用的转变。

模型家族演变：ALIGN家族在VLM摘要中被引最多，而LLaVA增长最快，反映了社区向指令跟随型VLM的转变。经典骨干网络如ResNet、ViT的可见度大致减半，而混合专家模型引用在2025年翻倍。

图3以条形图形式直观展示了增长最快的研究方向，视觉语言/多模态/LLM方向增长最为显著。

架构融合趋势： 参数高效的轻量级桥接成为默认设计选择。提示/前缀调优是最常引用的机制且持续上升，适配器/LoRA使用也稳步增长。
任务重心转移： 研究重点从任务特定监督转向通用、指令调优的推理能力。推理/指令跟随任务增长最快，而传统的接地/引用任务显著下降。
训练范式变革： 社区从使用大规模弱监督构建编码器，转向使用指令数据和参数高效更新来适配这些编码器和冻结的LLM。这降低了成本，加快了迭代速度，并与模块化融合趋势保持一致。
损失函数重新平衡： 对比学习目标份额显著下降，反映了新工作从从头构建图像-文本编码器转向适配此类预训练编码器并将其与大型LLM耦合的趋势。
数据集提及变化： 传统数据集如MS-COCO和ImageNet在摘要中被提及的次数稳步下降，而开放式网络资源保持稳定但份额较小。
多模态扩展策略： 3D/点云信号整体呈上升趋势，深度/RGB-D大致稳定，而音频/语音和视频-文本略有下降。这表明了一种实用策略：重用强大的图像-文本基础，并通过对齐或提示附加其他模态。

CVPR保持最强的3D重点，而ICLR在2025年拥有最大的VLM份额。NeurIPS在数据截止的2024年显示出早期的VLM增长。

给研究者的实用建议：

该研究基于摘要的词典驱动方法，某些字段在摘要中系统性报告不足，因此绝对数字较为保守。论文可能有多标签，百分比是每年所有论文的比例，总和不为100%。

尽管如此，主要趋势在不同会议和年份间保持一致。团队发布了完整词典和代码，以鼓励重现性和扩展到其他会议/年份。

研究清晰表明，计算机视觉与机器学习领域已进入"多模态生成基础+3D感知与编辑"的新时代，传统方法更多作为组件融入更大系统，而可扩展性和安全性成为普遍关注点。