论文阅读——ViTAE

ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias

ViTAE旨在将细胞神经网络中固有的IB引入视觉转换器。如图2所示，ViTAE由两种类型的细胞组成，即RC和NC。RC负责将多尺度上下文和局部信息嵌入到令牌中，NC用于进一步对令牌中的局部性和长程依赖性进行建模。以图像x∈RH×W×C为输入，使用三个RC分别将x逐步下采样4×、2×和2×。因此，RC的输出令牌的大小为[H/16，W/16，D]，其中D是令牌维度（在我们的实验中为64）。然后，RC的输出标记被平坦化为RHW/256×D，与类标记连接，并通过正弦位置编码相加。接下来，令牌被馈送到以下NC中，这些NC保持令牌的长度。最后，使用来自最后一个NC的类标记上的线性分类层来获得预测概率。

ViTAE（Vision Transformers Advanced by Exploring Intrinsic Inductive Bias），通过从卷积中探索内在IB而得到改进。从技术上讲，ViTAE有几个空间金字塔缩减模块，通过使用不同膨胀率的多个卷积，对输入图像进行下采样，并将其嵌入到具有丰富多尺度上下文的令牌中。通过这种方式，它获得了固有的尺度不变性IB，并且能够学习各种尺度下对象的鲁棒特征表示。此外，在每个转换器层中，ViTAE都有一个与多头自注意模块并行的卷积块，其特征被融合并馈送到前馈网络中。因此，它具有固有的局部性IB，能够协同学习局部特征和全局依赖性

ViT在建模局部视觉结构（例如边和角）和处理卷积等各种尺度的对象时缺乏固有的归纳偏差（IB）。或者，ViT必须从大规模数据中隐含地学习这种IB。

与视觉转换器不同，卷积神经网络（CNNs）自然具有尺度不变性和局部性的内在IB，并且仍然是视觉任务中的主要骨干[26，70，62，8，96]。细胞神经网络的成功激励我们在视觉转换器中探索内在的IB。我们首先分析了细胞神经网络的上述两个IB，即局部不变性和尺度不变性。卷积计算相邻像素之间的局部相关性，擅长提取边缘和角点等局部特征。因此，细胞神经网络可以在浅层提供丰富的低级别特征[94]，然后通过大量的顺序卷积将其逐渐聚合为高级别特征[32，68，71]。此外，细胞神经网络具有层次结构，可以提取不同层的多尺度特征[68，38，26]。此外，层内卷积还可以通过改变其内核大小和膨胀率来学习不同尺度的特征[25，70，8，45，96]。因此，可以通过层内或层间特征融合来获得尺度不变的特征表示。然而，细胞神经网络不太适合对长期依赖性进行建模2，这是变压器的关键优势。一个有趣的问题出现了：我们能利用细胞神经网络的良好特性来改进视觉转换器吗？最近，DeiT[76]探索了从细胞神经网络到变压器提取知识的想法，以促进培训并提高性能。然而，它需要现成的CNN模型作为教师，并消耗额外的培训成本。

与DeiT不同的是，本文通过重新设计网络结构，将固有IB明确引入到视觉变换器中。当前的视觉转换器总是获得具有单尺度上下文的标记[19，93，80，86，47，69，77]，并从数据中学习适应不同尺度的对象。例如，T2T-ViT[93]通过以软分割方式精细地生成令牌来改进ViT。具体而言，它使用一系列令牌到令牌转换层来聚合单尺度的相邻上下文信息，并将图像逐步结构化为令牌。受细胞神经网络在处理尺度方差方面的成功启发，我们在转换器中探索了一种类似的设计，即具有不同感受野的层内卷积[70，91]，以将多尺度上下文嵌入到令牌中。这样的设计允许标记在各种尺度上携带对象的有用特征，从而自然地具有固有的尺度不变性IB，并明确地促进变换器从数据中更有效地学习尺度不变特征。另一方面，低级局部特征是生成高级判别特征的基本要素。尽管变换器也可以从数据中学习浅层的这些特征，但它们在设计上并不擅长卷积。最近，[89，43，21]依次堆叠卷积和注意力层，并证明局部性是全局依赖性的合理补偿。然而，这种串行结构在局部建模过程中忽略了全局上下文（反之亦然）。为了避免这种困境，我们遵循"分而治之"的思想，提出并行地对局部依赖和长程依赖进行建模，然后融合特征来兼顾两者。通过这种方式，我们使转换器能够更有效地学习每个块中的局部和远程特征。从技术上讲，我们提出了一种通过探索固有电感偏置（ViTAE）先进的新型视觉转换器，它是两种基本单元的组合，即还原单元（RC）和正常单元（NC）。RC用于对输入图像进行下采样并将其嵌入到具有丰富多尺度上下文的令牌中，而NC旨在对令牌序列中的局部和全局依赖性进行联合建模。此外，这两种类型的细胞共享一个简单的基本结构，即并行注意力模块和卷积层，然后是前馈网络（FFN）。值得注意的是，RC有一个额外的金字塔缩减模块，该模块具有不同膨胀率的atrous卷积，以将多尺度上下文嵌入到令牌中。根据[93]中的设置，我们堆叠三个归约单元以将空间分辨率降低1/16，并堆叠一系列NC以从数据中学习判别特征。ViTAE在数据效率和训练效率（见图1）以及下游任务的分类精度和泛化能力方面优于具有代表性的视觉转换器。

我们的贡献有三方面。首先，我们探索了变换器中的两种固有IB，即尺度不变性和局部性，并证明了这种思想在提高变换器的特征学习能力方面的有效性。其次，我们基于两个新的归约和正常单元设计了一个新的变压器架构，命名为ViTAE，以本质上结合上述两个IB。所提出的ViTAE将多尺度上下文嵌入到令牌中，并有效地学习局部和远程特征。第三，ViTAE在分类精度、数据效率、训练效率和下游任务的泛化方面优于具有代表性的视觉转换器。ViTAE在ImageNet上分别以4.8M和23.6M的参数实现了75.3%和82.0%的第一精度。

ViTAEv2

ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond

除了分类之外，其他下游任务，包括对象检测、语义分割和姿态估计，也是通用主干网应该适应的非常重要的任务。这些下游任务通常需要从主干网中提取多层次特征，以处理不同尺度的对象。为此，我们将普通的ViTAE模型扩展到多阶段设计，即ViTAE-v2。ViTAE-v2设计的一个自然选择是通过重新组织RC和NC来重新构建模型。如图3所示，ViTAE-v2有四个阶段，其中使用四个相应的RC分别对特征进行4×、2×、2倍和2×的逐步下采样。在每个阶段，多个Ni正常电池在第i个RC之后顺序堆叠。请注意，一系列NC仅在各向同性设计的最粗略阶段使用。正常细胞（即Ni）的数量控制着模型的深度和大小。通过这样做，ViTAE-v2可以从不同阶段提取特征金字塔，其可以由专门为各种下游任务设计的解码器使用。

剩下的一个问题是，transformer中的普通注意力操作具有二次计算复杂性，因此需要大的内存占用和计算成本，尤其是对于具有大分辨率的特征图。与普通ViTAE设计中的快速分辨率降低相比，我们在多阶段设计中采用了慢速分辨率降低策略，例如，第一阶段的特征图的分辨率仅为原始图像大小的1/4，从而导致更多的计算成本，尤其是当下游任务中的图像具有高分辨率时。为了缓解这一问题，我们进一步探讨了RC和NC模块中的另一种归纳偏差，即（Liu et al，2021）中引入的局部窗口注意力。具体来说，窗口注意力将整个特征图拆分为几个不重叠的局部窗口，并在每个窗口内进行多头自注意力，即同一窗口内的每个查询令牌共享相同的键值集。由于所提出的两个单元中的并行卷积分支可以对位置信息进行编码并实现窗口间信息交换，因此可以省略（Liu et al，2021）中的相对位置编码和窗口移位机制等特殊设计。我们实证发现，在早期阶段用局部窗口注意力取代完全注意力可以在计算成本和性能之间实现良好的权衡。因此，在前两个阶段，我们只在RC和NC模块中使用局部窗口注意力。因此，我们的ViTAEv2模型可以为各种视觉任务提供卓越的性能，包括图像分类、对象检测、语义分割和姿态估计，同时保持快速的推理速度和合理的内存占用。