(aaai25) Dynamic Clustering Convolutional Neural Network

核心目标: 在避免过度增加计算成本的前提下,突破局部窗口建模的限制,实现高效的全局特征提取。

核心思想: 通过全局聚类将语义相似的图像块分组为簇,再对每个簇使用共享卷积核进行卷积操作。既保留 CNN 的归纳偏置和计算效率,又获得类似 Transformer 的全局建模能力。

如图所示,主要包括五个步骤:

  • 图像分块与聚类中心初始化:将输入图像转换为 H×W 个图像块,每个块均作为潜在聚类中心,并通过可学习参数将原始块特征转换为聚类中心特征向量(下方黄色特征)。
  • 提取特征向量子向量: 提取特征向量的子向量进行距离计算(采样间隔 d 设为 8),可以降低高分辨率图像处理的计算成本(上方绿色向量)。
  • 全局动态聚类:计算每个聚类中心与特征向量子向量的 L₂范数距离,通过 Top-K 算法选择距离最近的 K-1 个块,与聚类中心共同组成大小为 K 的簇。
  • 得到N个簇: 使用 IndexSelect 从聚类中心向量中选择,最终形成 H×W = N 个全局分布的簇。
  • 簇上卷积操作:对每个簇采用共享卷积核执行分组卷积(借鉴深度可分离卷积思想),平衡参数数量与计算效率,生成新的特征图。

实验部分可以参考作者论文,这里不过多介绍。

相关推荐
智算菩萨17 分钟前
【Generative AI For Autonomous Driving】4 自动驾驶生成式模型前沿实战——从图像合成到多模态大模型的技术全景解析
论文阅读·人工智能·深度学习·机器学习·ai·自动驾驶
才兄说1 小时前
机器人租售效果好吗?任务前演示确认
人工智能·机器人
测试_AI_一辰6 小时前
AI测试工程笔记 05:AI评测实践(从数据集到自动评测闭环)
人工智能·笔记·功能测试·自动化·ai编程
云境筑桃源哇7 小时前
海洋ALFA:主权与创新的交响,开启AI生态新纪元
人工智能
liliangcsdn7 小时前
LLM复杂数值的提取计算场景示例
人工智能·python
小和尚同志7 小时前
OpenCodeUI 让你随时随地 AI Coding
人工智能·aigc·ai编程
AI视觉网奇7 小时前
2d 数字人解决方案-待机动作
人工智能·计算机视觉
王上上7 小时前
# 【机器学习-20】-数值计算误差、逻辑回归/Softmax的数值稳定性优化、以及TensorFlow实现细节
机器学习·tensorflow·逻辑回归
人工智能AI酱7 小时前
【AI深究】逻辑回归(Logistic Regression)全网最详细全流程详解与案例(附大量Python代码演示)| 数学原理、案例流程、代码演示及结果解读 | 决策边界、正则化、优缺点及工程建议
人工智能·python·算法·机器学习·ai·逻辑回归·正则化
爱喝可乐的老王8 小时前
机器学习监督学习模型--逻辑回归
人工智能·机器学习·逻辑回归