(aaai25) Dynamic Clustering Convolutional Neural Network

核心目标: 在避免过度增加计算成本的前提下,突破局部窗口建模的限制,实现高效的全局特征提取。

核心思想: 通过全局聚类将语义相似的图像块分组为簇,再对每个簇使用共享卷积核进行卷积操作。既保留 CNN 的归纳偏置和计算效率,又获得类似 Transformer 的全局建模能力。

如图所示,主要包括五个步骤:

  • 图像分块与聚类中心初始化:将输入图像转换为 H×W 个图像块,每个块均作为潜在聚类中心,并通过可学习参数将原始块特征转换为聚类中心特征向量(下方黄色特征)。
  • 提取特征向量子向量: 提取特征向量的子向量进行距离计算(采样间隔 d 设为 8),可以降低高分辨率图像处理的计算成本(上方绿色向量)。
  • 全局动态聚类:计算每个聚类中心与特征向量子向量的 L₂范数距离,通过 Top-K 算法选择距离最近的 K-1 个块,与聚类中心共同组成大小为 K 的簇。
  • 得到N个簇: 使用 IndexSelect 从聚类中心向量中选择,最终形成 H×W = N 个全局分布的簇。
  • 簇上卷积操作:对每个簇采用共享卷积核执行分组卷积(借鉴深度可分离卷积思想),平衡参数数量与计算效率,生成新的特征图。

实验部分可以参考作者论文,这里不过多介绍。

相关推荐
owlion10 小时前
如何将视频文案整理成学习笔记
人工智能·python·机器学习·语言模型·自然语言处理
自然语10 小时前
人工智能之数字生命-特征类升级20260106
人工智能·算法
AC赳赳老秦10 小时前
前端可视化组件开发:DeepSeek辅助Vue/React图表组件编写实战
前端·vue.js·人工智能·react.js·信息可视化·数据分析·deepseek
AI街潜水的八角10 小时前
基于keras框架的MobileNet深度学习神经网络垃圾识别分类系统源码
深度学习·神经网络·keras
IT_陈寒10 小时前
React 18实战:这5个新特性让我的开发效率提升了40%
前端·人工智能·后端
zhengfei61110 小时前
AI渗透工具——AI驱动的BAS网络安全平台
人工智能·安全·web安全
imbackneverdie10 小时前
研究生如何高效完成文献综述并提炼创新点?
人工智能·ai·语言模型·自然语言处理·aigc·ai写作
cute_ming10 小时前
基于jieba的RAG通用分词最佳实践
人工智能·深度学习·知识图谱
zxy284722530111 小时前
利用C#的BotSharp本地部署第一个大模型AI Agent示例(1)
人工智能·c#·对话·ai agent·botsharp
才不做选择11 小时前
基于 YOLOv8 的部落冲突 (Clash of Clans) 目标检测系统
人工智能·python·yolo·目标检测