摘要
最近关于移动网络设计的研究表明,通道注意力(例如 Squeeze-and-Excitation 注意力)在提升模型性能方面具有显著效果,但它们通常忽略了位置信息,而位置信息对于生成空间选择性注意力图非常重要。在本文中,我们提出了一种用于移动网络的新型注意力机制,通过将位置信息嵌入通道注意力中,我们称之为"坐标注意力"。与通过二维全局池化将特征张量转换为单一特征向量的通道注意力不同,坐标注意力将通道注意力分解为两个沿两个空间方向分别聚合特征的一维特征编码过程。通过这种方式,可以沿一个空间方向捕捉长程依赖,同时沿另一空间方向保留精确的位置信息。生成的特征图随后被分别编码为一对具有方向感知和位置敏感的注意力图,这些注意力图可以互补地应用于输入特征图,以增强目标对象的表征。我们的坐标注意力设计简单,可灵活地嵌入经典移动网络,如 MobileNetV2、MobileNeXt 和 EfficientNet,且几乎不增加计算开销。大量实验证明,我们的坐标注意力不仅对 ImageNet 分类有益,更有趣的是,在下游任务中表现更佳,例如目标检测和语义分割。
1.简介
注意力机制用于告诉模型"关注什么"和"在哪里关注",已被广泛研究 [47, 29] 并广泛应用于提升现代深度神经网络的性能 [18, 44, 3, 25, 10, 14]。然而,它们在移动网络(模型大小有限)中的应用明显落后于大规模网络。这主要是因为大多数注意力机制带来的计算开销对于移动网络来说是无法承受的。
考虑到移动网络受限的计算能力,到目前为止,对于移动网络最流行的注意力机制仍然是Squeeze-and-Excitation(SE)注意力[18]。它在2D全局池化的帮助下计算通道注意力,并在相当低的计算成本下提供显著的性能提升。然而,SE注意力仅考虑编码通道间信息,而忽略了位置信息的重要性,而位置信息对于捕捉视觉任务中的对象结构至关重要[42]。后续工作,如BAM[30]和CBAM[44],尝试通过降低输入张量的通道维度,然后使用卷积计算空间注意力,如图2(b)所示。然而,卷积只能捕捉局部关系,但在建模对视觉任务至关重要的长程依赖性方面表现不足[48,14]。
在本文中,超越前人的工作,我们提出了一种新颖且高效的注意力机制,通过将位置信息嵌入通道注意力,使移动网络能够关注大范围区域,同时避免产生显著的计算开销。为了缓解2维全局池化造成的位置信息损失问题,我们因式分解通道注意力到两个平行的1维编码过程,将空间坐标信息整合到生成的注意力图中。具体而言,我们的方法利用两个一维全局池化操作,分别沿垂直和水平方向聚合输入特征,形成两个独立的方向感知特征图。这两个嵌入了特定方向信息的特征图随后分别被编码成两个注意力图,每个注意力图捕捉输入特征图沿一个空间方向的长程依赖。因此,位置信息可以在生成的注意力图中得到保留。然后,通过乘法将这两个注意力图应用到输入特征图上,以强调感兴趣的表示。我们将所提出的注意力方法命名为坐标注意力,因为其操作区分空间方向(即坐标)并生成坐标感知的注意力图。
我们的坐标注意力具有以下优势。首先,它不仅捕捉跨通道的信息,还捕捉方向感知和位置敏感的信息,这有助于模型更准确地定位和识别感兴趣的对象。其次,我们的方法灵活且轻量化,可以轻松地插入移动网络的经典构建模块中,例如MobileNetV2 [34] 提出的倒残差块和MobileNeXt [49] 提出的沙漏块,通过强调信息丰富的表示来增强特征。第三,作为一个预训练模型,我们的坐标注意力可以为移动网络的下游任务带来显著的性能提升,特别是对于那些具有密集预测的任务(例如语义分割),这一点将在我们的实验部分展示。
为了展示所提出方法相对于以往移动网络注意力方法的优势,我们在 ImageNet 分类[33] 以及包括目标检测和语义分割的流行下游任务上进行了大量实验。在可比的可学习参数量和计算量下,我们的网络在 ImageNet 的 top-1 分类准确率上实现了 0.8% 的性能提升。在目标检测和语义分割任务中,与采用其他注意力机制的模型相比,我们也观察到了显著的改进,如图 1 所示。我们希望我们简单且高效的设计能够促进未来移动网络注意力机制的发展。
2.相关工作
在本节中,我们对本文作一个简要的文献综述,包括关于高效网络架构设计以及注意力或非局部模型的先前工作。
2.1 移动网络架构
最近的最先进移动网络大多基于深度可分离卷积 [16] 和倒残差块 [34]。HBONet [20] 在每个倒残差块内部引入下采样操作,以建模具有代表性的空间信息。ShuffleNetV2 [27] 在倒残差块的前后使用通道分割模块和通道洗牌模块。随后,MobileNetV3 [15] 结合神经网络架构搜索算法 [50] 来搜索不同深度倒残差块的最优激活函数和扩展比例。此外,MixNet [39]、EfficientNet [38] 和 ProxylessNAS [2] 也采用不同的搜索策略,搜索深度可分离卷积的最佳卷积核大小,或者控制网络权重的标量,包括扩展比例、输入分辨率、网络深度和宽度。最近,Zhou 等人 [49] 重新思考了深度可分离卷积的利用方式,提出了 MobileNeXt,该方法为移动网络采用了经典的瓶颈结构。
2.2 注意力机制
注意力机制 [41, 40] 已被证明在各种计算机视觉任务中非常有用,例如图像分类 [18, 17, 44, 1] 和图像分割 [14, 19, 10]。一个成功的例子是 SENet [18],它通过简单地压缩每个二维特征图来高效建立通道间的依赖关系。CBAM [44] 进一步推进了这一思想,通过使用大尺寸卷积核引入空间信息编码。后续工作,如 GENet [17]、GALA [22]、AA [1] 和 TA [28],通过采用不同的空间注意力机制或设计高级注意力模块来扩展这一思想。非局部/自注意力网络近年来非常流行,因为它们能够建立空间或通道层面的注意力。典型例子包括 NLNet [43]、GC Net [3]、A2Net [7]、SCNet [25]、GSoP-Net [11] 或 CC Net [19],它们都利用非局部机制捕捉不同类型的空间信息。然而,由于自注意力模块内部的计算量很大,它们通常被应用于大型模型 [13, 46],而不适合移动网络。与这些利用昂贵且复杂的非局部或自注意力模块的方法不同,我们的方法考虑了一种更高效的方式来捕捉位置信息和通道间关系,以增强移动网络的特征表示。通过将二维全局池化操作分解为两个一维编码过程,我们的方法在保持轻量化特性的同时(例如 SENet [18]、CBAM [44] 和 TA [28]),表现优于其他注意力方法。
3. 坐标注意力
坐标注意力模块可以被视为一个计算单元,旨在增强移动网络所学习特征的表达能力。它可以接受任何中间特征张量