学习记录——Octave Convolution、LSK

Octave Convolution

2019 ICCV

自然世界中的图像存在高低频,卷积层的输出特征图以及输入通道,也都存在高、低频分量。 低频分量支撑的是整体轮廓,高频分量则关注细节,显然,低频分量是存在冗余的,在编码过程中可以节省。

  • 高频到高频的卷积核
  • 高频到低频的卷积核
  • 低频到高频的卷积核
  • 低频到低频的卷积核

下图直观地展示了八度卷积的卷积核,可以看出四个部分共同组成了大小为 k*k 的卷积核。其中,in和out分别表示输入和输出特征图的相关属性,在这篇文章中,输入的低频占比、通道数量都和输出的一致。

八度卷积的思想是为处理输入数据提供两个单独的路径:一个用于高频(细粒度)信息,另一个用于低频(粗粒度)信息。这可以通过使用两组卷积层来实现,每组卷积层具有不同的过滤器大小和步幅,其中一个路径在较低空间分辨率(下采样)下操作,另一个在较高空间分辨率(保持原始分辨率或轻微下采样)下操作。

Large Selective Kernel Network for Remote Sensing Object Detection

ICCV 2023

最近关于遥感物体检测的研究主要集中在改进旋转包围框的表示方法上,但忽略了遥感场景中出现的独特的先验知识。这种先验知识是非常重要的,因为微小的遥感物体可能会在没有参考足够长距离背景的情况下被错误地检测出来,而不同类型的物体所要求的长距离背景可能会有所不同。在本文中,我们将这些先验因素考虑在内,并提出了Large Selective Kernel Network(LSKNet)。LSKNet可以动态地调整其大空间感受野 ,以更好地建模遥感场景中各种物体的测距的场景。

  • 准确检测遥感图像中的物体往往需要广泛的背景信息
  • 不同类型的物体所需的上下文信息的范围非常不同。

动态调整特征提取骨干的感受野,以便更有效地处理被检测物体的不同的广泛背景。这是通过一个空间选择机制 来实现的,该机制对一连串的大depth-wise卷积核所处理的特征进行有效加权 ,然后在空间上将它们合并。这些核的权重是根据输入动态确定的,允许该模型自适应地使用不同的大核,并根据需要调整空间中每个目标的感受野。

LSK

上图展示了一个LSKNet Bolck的图示,是主干网中的一个重复块,其灵感来自ConvNeXt, PVT-v2, VAN, Conv2Former 和 MetaFormer。每个LSKNet块由两个剩余子块组成:大核选择(LK Selection)子块和前馈网络(FFN)子块。LK选择子块根据需要动态地调整网络的感受野。前馈网络子块用于通道混合和特征细化,由一个全连接层、一个深度卷积、一个GELU激活和第二个全连接层组成的序列。核心模块LSK Module被嵌入到LK选择子块中。它由一连串的大内核卷积和一个空间内核选择机制组成。

End

以上仅作个人学习记录使用