论文笔记 ICLR 2024 MogaNet: Multi-Order Gated Aggregation Network




配图中有2个分支,一个是subtract的输出和缩放因子(γs)相乘之后的结果,另一个是1×1卷积输出的结果,这两个分支的输出进行element-wise addition,这两个分支的输出分别代表什么?

为什么"增强局部与全局特征的差异性"可以提高识别、检测、分割的性能?

类似地,图中Multi-Order Gated Aggregation中的两个分支Fϕ(·)和Gψ(·),一方面保留了输入的主要信息,另一方面通过Gψ(·)分支增强了多尺度特征。

似乎在特征融合或特征增强的模块设计中,一个分支保留输入的主要信息,另一个分支进行输入特征增强或融合,最后将两个分支的输出进行融合,这种操作非常常见,其设计思想借鉴了残差连接。

然后是Channel Aggregation Block(CA Block)Multi-Order Gated Aggregation Block(Moga Block)的输出可以作为 Channel Aggregation Block(CA Block)的输入。这种设计符合MogaNet的整体结构逻辑,即先通过Moga Block 进行空间维度和上下文特征的多阶交互聚合,再通过CA Block在通道维度上进行自适应的特征重新分配和聚合。具体来说:

1. Multi-Order Gated Aggregation Block 的作用

  • Moga Block 专注于通过不同大小的卷积核(如5×5、7×7)和空洞卷积,捕捉不同空间尺度的特征,并对这些特征进行聚合。它主要处理的是特征的空间维度上下文交互

2. Channel Aggregation Block 的作用

  • CA Block 则进一步处理这些聚合后的特征,重点是对通道维度进行重新分配和自适应加权。它通过通道间的差异性计算(如通过1×1卷积降维、GELU激活和残差加权),优化通道间的特征表达。

3. 输入与输出的关系

  • 在MogaNet的结构中,Moga Block 的输出(经过空间聚合和上下文交互后的特征)会作为CA Block的输入。在CA Block中,模型进一步调整通道间的特征关系,最终生成更具表达力的输出。因此,Moga Block和CA Block在网络中是串联工作的,Moga Block处理空间维度和上下文信息,而CA Block则负责优化通道维度的特征。

4. 总结

  • Moga BlockCA Block 是网络中两个紧密关联的模块。Moga Block 输出的特征经过聚合后会被送入CA Block,在通道维度上进行进一步的优化和处理。这个设计的目的是确保特征在空间和通道两个维度上都能被充分利用和优化。


怎么利用这篇论文提出的模块进行改进?

相关推荐
檐下翻书17317 分钟前
从入门到精通:流程图制作学习路径规划
论文阅读·人工智能·学习·算法·流程图·论文笔记
iiiiii112 小时前
【论文阅读笔记】多实例学习方法 Diverse Density(DD):在特征空间中寻找正概念的坐标
论文阅读·人工智能·笔记·机器学习·ai·学习方法·多实例学习
ModestCoder_3 小时前
【学习笔记】Diffusion Policy for Robotics
论文阅读·人工智能·笔记·学习·机器人·强化学习·具身智能
川西胖墩墩7 小时前
流程图在算法设计中的实战应用
数据库·论文阅读·人工智能·职场和发展·流程图
檐下翻书1732 天前
流程图配色与美化:让你的图表会“说话”
论文阅读·人工智能·信息可视化·流程图·论文笔记
wbzuo4 天前
Clip:Learning Transferable Visual Models From Natural Language Supervision
论文阅读·人工智能·transformer
想成为PhD的小提琴手5 天前
论文阅读13——基于大语言模型和视觉模态融合的可解释端到端自动驾驶框架:DriveLLM-V的设计与应用
论文阅读·语言模型·自动驾驶
想看雪的瓜5 天前
Origin将2D普通的XPS曲线图升级为三维XPS瀑布图
论文阅读·论文笔记
DuHz6 天前
基于信号分解的FMCW雷达相互干扰抑制——论文阅读
论文阅读·算法·汽车·信息与通信·毫米波雷达
m0_650108246 天前
MiniGPT-4:解锁 LLM 驱动的高级视觉语言能力
论文阅读·开源·视觉语言大模型·minigpt-4·跨模态对齐·强llm+视觉对齐