(aaai25) Dynamic Clustering Convolutional Neural Network

计算机科研狗@OUC2026-01-06 10:19

核心目标： 在避免过度增加计算成本的前提下，突破局部窗口建模的限制，实现高效的全局特征提取。

核心思想： 通过全局聚类将语义相似的图像块分组为簇，再对每个簇使用共享卷积核进行卷积操作。既保留 CNN 的归纳偏置和计算效率，又获得类似 Transformer 的全局建模能力。

如图所示，主要包括五个步骤：

图像分块与聚类中心初始化：将输入图像转换为 H×W 个图像块，每个块均作为潜在聚类中心，并通过可学习参数将原始块特征转换为聚类中心特征向量（下方黄色特征）。
提取特征向量子向量： 提取特征向量的子向量进行距离计算（采样间隔 d 设为 8），可以降低高分辨率图像处理的计算成本（上方绿色向量）。
全局动态聚类：计算每个聚类中心与特征向量子向量的 L₂范数距离，通过 Top-K 算法选择距离最近的 K-1 个块，与聚类中心共同组成大小为 K 的簇。
得到N个簇： 使用 IndexSelect 从聚类中心向量中选择，最终形成 H×W = N 个全局分布的簇。
簇上卷积操作：对每个簇采用共享卷积核执行分组卷积（借鉴深度可分离卷积思想），平衡参数数量与计算效率，生成新的特征图。

实验部分可以参考作者论文，这里不过多介绍。