(aaai25) Dynamic Clustering Convolutional Neural Network

核心目标: 在避免过度增加计算成本的前提下,突破局部窗口建模的限制,实现高效的全局特征提取。

核心思想: 通过全局聚类将语义相似的图像块分组为簇,再对每个簇使用共享卷积核进行卷积操作。既保留 CNN 的归纳偏置和计算效率,又获得类似 Transformer 的全局建模能力。

如图所示,主要包括五个步骤:

  • 图像分块与聚类中心初始化:将输入图像转换为 H×W 个图像块,每个块均作为潜在聚类中心,并通过可学习参数将原始块特征转换为聚类中心特征向量(下方黄色特征)。
  • 提取特征向量子向量: 提取特征向量的子向量进行距离计算(采样间隔 d 设为 8),可以降低高分辨率图像处理的计算成本(上方绿色向量)。
  • 全局动态聚类:计算每个聚类中心与特征向量子向量的 L₂范数距离,通过 Top-K 算法选择距离最近的 K-1 个块,与聚类中心共同组成大小为 K 的簇。
  • 得到N个簇: 使用 IndexSelect 从聚类中心向量中选择,最终形成 H×W = N 个全局分布的簇。
  • 簇上卷积操作:对每个簇采用共享卷积核执行分组卷积(借鉴深度可分离卷积思想),平衡参数数量与计算效率,生成新的特征图。

实验部分可以参考作者论文,这里不过多介绍。

相关推荐
火山引擎开发者社区2 小时前
没有长期记忆,Agent 谈何持续进化?一图看懂火山 Mem0:解锁 Agent 持续学习与进化之路
人工智能
冬奇Lab5 小时前
Workflow 系列(06):安全——跨步骤注入传播与四层防御
人工智能·工作流引擎
冬奇Lab5 小时前
每日一个开源项目(第149篇):RAG-Anything - 把图片、表格、公式当成一等公民的多模态 RAG 框架
人工智能·开源
米小虾6 小时前
AI Agent 安全实战指南:当智能体开始"不听话",开发者该如何应对?
人工智能·安全·agent
IT_陈寒7 小时前
Vite的热更新突然不香了,排查三小时差点砸键盘
前端·人工智能·后端
阿里云大数据AI技术9 小时前
构建高转化海外电商搜索:阿里云OpenSearch行业算法版的全链路智能优化策略实战
人工智能·搜索引擎
Awu12279 小时前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude
字节跳动视频云技术团队9 小时前
让 Agent 成为音视频工作台:AI MediaKit CLI + Skill 发布
人工智能·音视频开发
魏祖潇9 小时前
framework 整合实战——DDD/TDD/SDD 三件套在 framework 仓的真实落地
人工智能·后端