(aaai25) Dynamic Clustering Convolutional Neural Network

核心目标: 在避免过度增加计算成本的前提下,突破局部窗口建模的限制,实现高效的全局特征提取。

核心思想: 通过全局聚类将语义相似的图像块分组为簇,再对每个簇使用共享卷积核进行卷积操作。既保留 CNN 的归纳偏置和计算效率,又获得类似 Transformer 的全局建模能力。

如图所示,主要包括五个步骤:

  • 图像分块与聚类中心初始化:将输入图像转换为 H×W 个图像块,每个块均作为潜在聚类中心,并通过可学习参数将原始块特征转换为聚类中心特征向量(下方黄色特征)。
  • 提取特征向量子向量: 提取特征向量的子向量进行距离计算(采样间隔 d 设为 8),可以降低高分辨率图像处理的计算成本(上方绿色向量)。
  • 全局动态聚类:计算每个聚类中心与特征向量子向量的 L₂范数距离,通过 Top-K 算法选择距离最近的 K-1 个块,与聚类中心共同组成大小为 K 的簇。
  • 得到N个簇: 使用 IndexSelect 从聚类中心向量中选择,最终形成 H×W = N 个全局分布的簇。
  • 簇上卷积操作:对每个簇采用共享卷积核执行分组卷积(借鉴深度可分离卷积思想),平衡参数数量与计算效率,生成新的特征图。

实验部分可以参考作者论文,这里不过多介绍。

相关推荐
南屹川8 分钟前
【算法】动态规划实战:从入门到精通
人工智能
人工智能培训12 分钟前
大模型与传统小模型、传统NLP模型的核心差异解析
人工智能·深度学习·神经网络·机器学习·生成对抗网络
沪漂阿龙16 分钟前
面试题详解:智能客服 Agent 系统全栈拆解——Rasa Pro、对话管理、意图识别、GraphRAG、Qwen 与 RAG 优化实战
人工智能·架构
薛定猫AI36 分钟前
【深度解析】Gemini Omni 多模态生成与 Agent 化创作工作流:从视频编辑到 UI 生成的技术演进
人工智能·ui·音视频
羊羊小栈36 分钟前
AI赋能电力巡检:智能故障预警系统
人工智能·yolo·目标检测·毕业设计·大作业
Python私教42 分钟前
视觉 Agent 爬取 vs Playwright 脚本:Browser Use 2026 选型表
人工智能
Python私教1 小时前
Crawlee StagehandCrawler:自然语言点 Load More 的工程化爬虫
人工智能
南屹川1 小时前
【容器化】Docker实战:从入门到生产环境部署
人工智能
海蓝可知天湛1 小时前
Agent&IELTS雅思口语专属语料库
人工智能·github·rag·ielts·skills
随身数智备忘录1 小时前
什么是设备管理体系?设备管理体系包含哪些核心模块?
网络·数据库·人工智能