摘要
https://arxiv.org/pdf/2108.00154
Transformer在处理计算机视觉任务方面取得了巨大进展。然而,现有的视觉Transformer尚不具备构建不同尺度特征之间交互的能力,这对于视觉输入来说在感知上至关重要。原因有两方面:(1)每一层的输入嵌入都是等尺度的,因此无法提取跨尺度的特征;(2)为了降低计算成本,一些视觉Transformer在自注意力模块内合并相邻的嵌入,从而牺牲了嵌入的小尺度(细粒度)特征,同时也无法实现跨尺度的交互。为此,我们提出了跨尺度嵌入层(Cross-scale Embedding Layer,CEL)和长短距离注意力(Long Short Distance Attention,LSDA)。一方面,CEL将每个嵌入与多个不同尺度的块进行混合,为自注意力模块本身提供跨尺度的特征。另一方面,LSDA将自注意力模块分为短距离和长距离两部分,这不仅降低了计算负担,还保留了嵌入中的小尺度和大尺度特征。通过上述两种设计,我们实现了跨尺度注意力。此外,我们为视觉Transformer提出了一种动态位置偏置,使流行的相对位置偏置能够应用于不同大小的图像。基于跨尺度注意力模块,我们构建了一个通用的视觉架构,称为CrossFormer,它能够容纳不同大小的输入。大量实验表明,CrossFormer在图像分类、目标检测、实例分割和语义分割任务上优于其他视觉Transformer。
1 引言
事实证明,Transformer(Vaswani等,2017;Devlin等,2019;Brown等,2020)在自然语言处理(NLP)领域取得了巨大成功。得益于其自注意力模块,Transformer天生就具备构建远距离依赖关系的关键能力。由于许多视觉任务(Zhang & Yang, 2021;Chu等,2021)也需要远距离依赖关系,因此涌现了大量研究工作(Dosovitskiy等,2021;Touvron等,2021;Wang等,2021),探索各种基于Transformer的视觉架构。
Transformer需要一系列 L 2 L^{2} L2嵌入(例如,词嵌入)作为输入。为了适应这一要求以处理典型的视觉任务,大多数现有的视觉Transformer(Dosovitskiy等,2021;Touvron等,2021;Wang等,2021;Liu等,2021b)通过将输入图像分割成大小相同的块来生成嵌入。例如,一张 224 × 224 224 \times 224 224×224的图像可以被分割成 56 × 56 56 \times 56 56×56个大小为 4 × 4 4 \times 4 4×4的块,这些块通过一个线性层进行投影,以产生嵌入序列。在特定的Transformer内部,自注意力机制被用来建立任意两个嵌入之间的交互。因此,自注意力模块的计算或内存成本是 O ( N 2 ) O(N^{2}) O(N2),其中 N N N是嵌入序列的长度。对于视觉输入来说,这样的成本太高,因为其嵌入序列远长于NLP的嵌入序列。因此,最近提出的视觉Transformer(Wang等,2021;Liu等,2021b;Lin等,2021)开发了多种替代方案,以较低的成本近似原始的自注意力模块。
尽管上述视觉Transformer取得了一些进展,但它们存在一个限制性能的问题------无法建立不同尺度特征之间的交互,而这种能力对于许多视觉任务来说至关重要。例如,图像中通常包含许多不同尺度的物体,为了充分理解图像,建立这些物体之间的交互是有帮助的。此外,一些特定任务,如实例分割,需要大尺度(粗粒度)特征和小尺度(细粒度)特征之间的交互。现有的视觉Transformer由于以下两个原因无法处理上述情况:(1)嵌入是由大小相同的块生成的,因此它们只具有单一尺度的特征。而且,在接下来的层中,通过像平均池化这样的操作,它们的尺度保持不变或均匀增大。因此,同一层的嵌入始终是等尺度的。(2)在自注意力模块内部,相邻的嵌入通常被组合在一起并合并(Wang等,2021;Chu等,2021)。由于组合的数量少于嵌入的数量,这种行为可以减少自注意力的计算预算。然而,在这种情况下,即使嵌入同时具有小尺度和大尺度的特征,合并操作也会丢失每个嵌入的小尺度(细粒度)特征,从而无法实现跨尺度注意力。
为了建立跨尺度交互,我们共同设计了一种新型的嵌入层和自注意力模块,如下所示。1)跨尺度嵌入层(Cross-scale Embedding Layer,CEL)------遵循Wang等(2021)的方法,我们也为我们的Transformer采用金字塔结构,该结构自然地将视觉Transformer模型分为多个阶段。CEL出现在每个阶段的开始,它接收上一阶段的输出(或输入图像)作为输入,并使用多个不同尺度的核(例如, 4 × 4 4 \times 4 4×4或 8 × 8 8 \times 8 8×8)对块进行采样。然后,通过投影和拼接这些块(而不是仅使用单一尺度的块)来构建每个嵌入,从而为每个嵌入赋予跨尺度特征。2)长短距离注意力(Long Short Distance Attention,LSDA)------我们提出了一种原始自注意力的替代方案,但为了保留小尺度特征,嵌入不会被合并。相反,我们将自注意力模块分为短距离注意力(Short Distance Attention,SDA)和长距离注意力(Long Distance Attention,LDA)。SDA建立相邻嵌入之间的依赖关系,而LDA负责远距离嵌入之间的依赖关系。所提出的LSDA还可以像先前的研究(Wang等,2021;Chu等,2021)一样降低自注意力模块的成本,但与它们不同的是,LSDA不会削弱小尺度或大尺度特征。因此,实现了具有跨尺度交互的注意力。
此外,遵循先前的工作(Shaw等,2018;Liu等,2021b),我们为嵌入的位置表示采用了一个相对位置偏置。相对位置偏置(Relative Position Bias,RPB)仅支持固定的图像/组大小。然而,对于许多视觉任务(如目标检测)来说,图像大小是可变的,包括我们提出的架构在内的许多架构的组大小也是如此。为了使RPB更加灵活,我们进一步引入了一个可训练的模块,称为动态位置偏置(Dynamic Position Bias,DPB),它接收两个嵌入的相对距离作为输入,并输出它们的位置偏置。DPB模块在训练阶段进行端到端优化,引入的成本可忽略不计,但使RPB能够应用于可变大小的图像/组。
我们提出的所有模块都可以用大约十行代码实现。基于这些模块,我们构建了四种不同大小的通用视觉Transformer,称为CrossFormers。除了图像分类之外,所提出的CrossFormer还可以处理具有可变大小输入的各种任务,如目标检测。在四个具有代表性的视觉任务(即图像分类、目标检测、实例分割和语义分割)上的实验表明,CrossFormer在所有任务上的表现都优于其他最先进的视觉Transformer。值得注意的是,CrossFormer在密集预测任务(如目标检测和实例/语义分割)上带来的性能提升尤为显著。
值得强调的是我们的贡献如下:
- 我们提出了跨尺度嵌入层(CEL)和长短距离注意力(LSDA),这两者共同弥补了现有Transformer无法构建跨尺度注意力的问题。
- 我们进一步提出了动态位置偏置模块(DPB),使相对位置偏置更加灵活,即能够适应不同的图像尺寸或组大小。
- 我们构建了多个不同大小的CrossFormer,并通过在四个具有代表性的视觉任务上进行充分的实验,验证了它们的有效性。
2 背景
视觉Transformer。受自然语言处理(NLP)中Transformer的启发,研究人员设计了特定的视觉Transformer,用于视觉任务,以充分利用其强大的注意力机制。特别是,ViT和DeiT将原始的Transformer(Vaswani等人,2017)迁移到视觉任务中(Touvron等人,2021;Dosovitskiy等人,2021),取得了令人印象深刻的性能。之后,PVT(Wang等人,2021)、HVT(Pan等人,2021)、Swin(Liu等人,2021b)和ViTAE(Xu等人,2021)将金字塔结构引入视觉Transformer中,极大地减少了各自模型后层中块的数量。它们还将视觉Transformer扩展到其他视觉任务,如目标检测和分割(Wang等人,2021;Liu等人,2021b)。
自注意力的替代方案。作为Transformer的核心组件,自注意力模块会带来 O ( N 2 ) O\left(N^{2}\right) O(N2)的计算/内存成本,其中 N N N是嵌入序列的长度。尽管对于图像分类来说,这样的成本可能是可以接受的,但对于其他具有更大输入图像的任务(例如目标检测和分割)来说,情况并非如此。为了降低成本,Swin(Liu等人,2021b)将注意力限制在某个局部区域,放弃了长距离依赖性。PVT(Wang等人,2021)和Twins(Chu等人,2021)使相邻嵌入共享相同的键/值来降低成本。同样,其他视觉Transformer(如Chen等人,2021a;Zhang等人,2021b;Wu等人,2021)也采用了分而治之的方法,并用较低的成本近似了原始的自注意力模块。
位置表示。Transformer是组合不变的。也就是说,打乱输入嵌入不会改变Transformer的输出。然而,嵌入的位置也包含重要信息。为了使各自模型意识到这一点,提出了许多不同的嵌入位置表示(Vaswani等人,2017)。例如,Dosovitskiy等人(2021)直接将嵌入与包含绝对位置信息的向量相加。相比之下,相对位置偏置(RPB)(Shaw等人,2018)依赖于位置信息来表示两个嵌入之间的相对距离。最近的大量工作(Liu等人,2021b;Chen等人,2021b)表明,RPB的性能优于其他位置表示。受这一发现的启发,我们提出的位置表示DPB也使用相对距离,但与仅处理固定大小图像的RPB不同,我们的DPB适用于动态大小的图像。
3 CrossFormer
CrossFormer的总体架构如图1所示。遵循(Wang等人,2021;Liu等人,2021b;Lin等人,2021),CrossFormer也采用了金字塔结构,该结构自然地将Transformer模型分为四个阶段。每个阶段由一个跨尺度嵌入层(CEL,第3.1节)和多个CrossFormer块(第3.2节)组成。CEL接收上一阶段的输出(或输入图像)作为输入,并生成跨尺度嵌入。在此过程中,CEL(除第一阶段外)将嵌入的数量减少到四分之一,同时将其维度加倍,以形成金字塔结构。然后,在CEL之后设置多个CrossFormer块,每个块都涉及长短距离注意力(LSDA)和动态位置偏置(DPB)。一个专门设计的头部(例如图1中的分类头部)跟随在最后一个阶段之后,负责特定的任务。
3.1 跨尺度嵌入层(CEL)
跨尺度嵌入层(CEL)用于为每个阶段生成输入嵌入。图2以位于第一阶段之前的第一个CEL为例。它接收图像作为输入,然后使用四个不同大小的核进行采样补丁。四个核的步长保持不变,以便它们生成相同数量的嵌入 { } 4 \{ \}^{4} {}4。如图2所示,每四个对应的补丁具有相同的中心但不同的尺度,并且所有这些补丁都将被投影并连接为一个嵌入。在实践中,采样和投影的过程可以通过四个卷积层来完成。
对于跨尺度嵌入,一个问题是如何设置每个尺度的投影维度。卷积层的计算预算与 K 2 D 2 K^{2} D^{2} K2D2成正比,其中 K K K和 D D D分别表示核大小和输入/输出维度(假设输入维度等于输出维度)。因此,在给定相同维度的情况下,大核比小核消耗更多的预算。为了控制CEL的总预算,我们为大核使用较低的维度,而为小核使用较高的维度。图2的子表中提供了具体的分配规则,并给出了一个128维的示例。与平均分配维度相比,我们的方案节省了大量的计算成本,但并不明显影响模型的性能。其他阶段的跨尺度嵌入层以类似的方式工作。如图1所示,用于第二阶段/第三阶段/第四阶段的CEL使用两个不同的核( 2 × 2 2 \times 2 2×2和 4 × 4 4 \times 4 4×4)。此外,为了形成金字塔结构,将第二阶段/第三阶段/第四阶段的CEL的步长设置为 2 × 2 2 \times 2 2×2,从而将嵌入的数量减少到四分之一。
3.2 CrossFormer模块
每个CrossFormer模块由一个长短距离注意力模块(即LSDA,包含短距离注意力(SDA)模块或长距离注意力(LDA)模块)和一个多层感知器(MLP)组成。如图1b所示,SDA和LDA在不同模块中交替出现,动态位置偏置(DPB)模块在SDA和LDA中均起作用,以获得嵌入的位置表示。遵循先前的视觉Transformer,每个模块中都使用了残差连接。
3.2.1 长短距离注意力(LSDA)
我们将自注意力模块分为两部分:短距离注意力(SDA)和长距离注意力(LDA)。对于SDA,每 G × G G \times G G×G 个相邻嵌入被组合在一起。图3a给出了一个 G = 3 G=3 G=3 的示例。对于输入大小为 S × S S \times S S×S 的LDA,嵌入以固定间隔 I I I 进行采样。例如,在图3b( I = 3 I=3 I=3)中,所有带有红色边框的嵌入属于一个组,而带有黄色边框的嵌入组成另一个组。LDA的组高度或宽度计算为 G = S / I G=S / I G=S/I(即在此示例中为 G = 3 G=3 G=3)。在分组嵌入后,SDA和LDA在每个组内都使用普通的自注意力。因此,自注意力模块的内存/计算成本从 O ( S 4 ) O\left(S^{4}\right) O(S4) 降低到 O ( S 2 G 2 ) O\left(S^{2} G^{2}\right) O(S2G2),并且在大多数情况下 G ≪ S G \ll S G≪S。
值得注意的是,LDA的有效性也得益于跨尺度嵌入。具体来说,我们在图3b中绘制了包含两个嵌入的所有补丁。我们可以看到,两个嵌入的小尺度补丁不相邻,因此如果没有上下文的帮助,就很难判断它们之间的关系。换句话说,如果这两个嵌入仅由小尺度补丁(即单尺度特征)构成,那么将很难建立它们之间的依赖关系。相反,相邻的大尺度补丁提供了足够的上下文来连接这两个嵌入,这使得长距离跨尺度注意力更容易且更有意义。
我们在附录(A.1)中提供了LSDA的伪代码。基于普通的多头自注意力,LSDA仅用十行代码即可实现。此外,它仅使用重塑和排列操作,因此不会引入额外的计算成本。
3.2.2 动态位置偏置(DPB)
相对位置偏置(RPB)通过向注意力添加一个偏置来表示嵌入的相对位置。形式上,具有RPB的LSDA的注意力图变为:
Attention = Softmax ( Q K T / d + B ) V \text { Attention }=\operatorname{Softmax}\left(\boldsymbol{Q} \boldsymbol{K}^{T} / \sqrt{d}+\boldsymbol{B}\right) \boldsymbol{V} Attention =Softmax(QKT/d +B)V
其中, Q , K , V ∈ R G 2 × D \boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V} \in \mathbb{R}^{G^{2} \times D} Q,K,V∈RG2×D 分别代表自注意力模块中的查询、键和值。 d \sqrt{d} d 是一个常数归一化因子,而 B ∈ R G 2 × G 2 B \in \mathbb{R}^{G^{2} \times G^{2}} B∈RG2×G2 是RPB矩阵。在先前的工作(Liu等,2021b)中, B i , j = B ^ Δ x i j , Δ y i j \boldsymbol{B}{i, j}=\hat{\boldsymbol{B}}{\Delta x_{i j}, \Delta y_{i j}} Bi,j=B^Δxij,Δyij,其中 B ^ \hat{\boldsymbol{B}} B^ 是一个固定大小的矩阵, ( Δ x i j , Δ y i j ) \left(\Delta x_{i j}, \Delta y_{i j}\right) (Δxij,Δyij) 是第 i t h i_{th} ith 和 j t h j_{th} jth 个嵌入之间的坐标距离。显然,如果 ( Δ x i j , Δ y i j ) \left(\Delta x_{i j}, \Delta y_{i j}\right) (Δxij,Δyij) 超过了 B ^ \hat{B} B^ 的大小,那么图像/组的大小就会受到限制。相比之下,我们提出了一个基于MLP的模块,称为DPB,以动态生成相对位置偏置,即:
B i , j = D P B ( Δ x i j , Δ y i j ) \boldsymbol{B}{i, j}=D P B\left(\Delta x{i j}, \Delta y_{i j}\right) Bi,j=DPB(Δxij,Δyij)
DPB的结构如图36所示。其非线性变换由三个具有层归一化(Ba等,2016)和ReLU(Nair和Hinton,2010)的全连接层组成。DPB的输入维度为2,即 ( Δ x i j , Δ y i j ) \left(\Delta x_{i j}, \Delta y_{i j}\right) (Δxij,Δyij),中间层的维度设置为 D / 4 D / 4 D/4,其中 D D D 是嵌入的维度。输出 B i j B_{i j} Bij 是一个标量,编码了第 i t h i_{th} ith 和 j t h j_{th} jth 个嵌入之间的相对位置特征。DPB是一个与整个Transformer模型一起优化的可训练模块。它可以处理任何大小的图像/组,而无需担心 ( Δ x i j , Δ y i j ) \left(\Delta x_{i j}, \Delta y_{i j}\right) (Δxij,Δyij) 的界限。在附录(\overline{\text {A.2}})中,我们证明了如果图像/组大小固定,DPB等效于RPB。在这种情况下,我们可以在测试阶段将训练过的DPB转换为RPB。我们还提供了一种高效的 O ( G 2 ) O\left(G^{2}\right) O(G2) DPB实现,适用于图像/组大小可变的情况(在正常情况下复杂度为 O ( G 4 ) O\left(G^{4}\right) O(G4),因为 B ∈ R G 2 × G 2 ) \left.\boldsymbol{B} \in \mathbb{R}^{G^{2} \times G^{2}}\right) B∈RG2×G2)。
3.3 CrossFormer的变体
表1列出了CrossFormer的四个变体(分别为tiny、small、base和large的-T、-S、-B和-L)用于图像分类的详细配置。为了重用预训练权重,其他任务(例如目标检测)的模型使用与分类相同的骨干网络,但可能会使用不同的 G G G 和 I I I。具体来说,除了与分类相同的配置外,我们还为检测和分割模型的前两个阶段测试了 G 1 = G 2 = 14 , I 1 = 16 G_{1}=G_{2}=14, I_{1}=16 G1=G2=14,I1=16 和 I 2 = 8 I_{2}=8 I2=8,以适应更大的图像。具体配置在附录(A.3)中描述。值得注意的是,组大小或间隔(即 G G G 或 I I I)不会影响权重张量的形状,因此,即使在ImageNet上预训练的骨干网络使用不同的 G G G 或 I I I,也可以轻松地在其他任务上进行微调。
4 实验
实验在四个具有挑战性的任务上进行:图像分类、目标检测、实例分割和语义分割。为了进行公平的比较,我们尽可能保持与其他视觉Transformer相同的数据增强和训练设置。竞争对手都是具有竞争力的视觉Transformer,包括DeiT(Touvron等,2021)、PVT(Wang等,2021)、T2T-ViT(Yuan等,2021)、TNT(Han等,2021)、CViT(Chen等,2021a)、Twins(Chu等,2021)、Swin(Liu等,2021b)、NesT(Zhang等,2021b)、CvT(Wu等,2021)、ViL(Zhang等,2021a)、CAT(Lin等,2021)、ResT(Zhang和Yang,2021)、TransCNN(Liu等,2021a)、Shuffle(Huang等,2021)、BoTNet(Srinivas等,2021)和RegionViT(Chen等,2021b)。
4.1 图像分类
实验设置。图像分类实验使用ImageNet(Russakovsky等,2015)数据集进行。模型在128万张训练图像上进行训练,并在5万张验证图像上进行测试。我们采用了与其他视觉Transformer相同的训练设置。具体来说,我们使用AdamW(Kingma和Ba,2015)优化器进行300个epoch的训练,并使用余弦衰减学习率调度器和20个epoch的线性预热。批量大小在8个V100 GPU上分为1024。初始学习率设为0.001,权重衰减设为0.05。此外,我们分别为CrossFormer-T、CrossFormer-S、CrossFormer-B、CrossFormer-L使用0.1、0.2、0.3、0.5的drop path率。此外,与Swin(Liu等,2021b)类似,我们使用RandAugment(Cubuk等,2020)、Mixup(Zhang等,2018)、Cutmix(Yun等,2019)、随机擦除(Zhong等,2020)和随机深度(Huang等,2016)进行数据增强。
结果。结果如表2所示。可以看出,CrossFormer在参数和浮点运算次数(FLOPs)与其他最先进的视觉Transformer结构相当的情况下,实现了最高的准确率。具体来说,与强大的基线模型DeiT、PVT和Swin相比,我们的CrossFormer在小模型上的准确率至少高出1.2%的绝对值。此外,虽然RegionViT在小模型上的准确率(82.5%)与我们相当,但在大模型上,其准确率绝对值比我们低0.7%(84.0% vs. 83.3%)。
4.2 目标检测和实例分割
实验设置。目标检测和实例分割实验均在COCO 2017数据集(Lin等,2014)上进行,该数据集包含11.8万张训练图像和5千张验证图像。我们使用基于MMDetection(Chen等,2019)的RetinaNet(Lin等,2020)和Mask R-CNN(He等,2017)分别作为目标检测和实例分割的头部。对于这两项任务,骨干网络均使用在ImageNet上预训练的权重进行初始化。然后,整个模型在8个V100 GPU上以批量大小16进行训练,并使用初始学习率为 1 × 1 0 − 4 1 \times 10^{-4} 1×10−4的AdamW优化器。遵循以前的工作,当使用RetinaNet作为检测器时,我们采用 1 × 1 \times 1×训练计划(即模型训练12个epoch),并将图像的短边调整为800像素。而对于Mask R-CNN,则使用 1 × 1 \times 1×和 3 × 3 \times 3×训练计划。需要注意的是,当使用 3 × 3 \times 3×训练计划时,还采用了多尺度训练(Carion等,2020)。
结果。RetinaNet和Mask R-CNN的结果分别如表3和表4所示。可以看出,随着实验的进行,排名第二的架构会发生变化,即这些架构可能在某项任务上表现良好,但在另一项任务上表现不佳。相比之下,我们的CrossFormer在两项任务(检测和分割)以及两种模型尺寸(小型和基础型)上都优于其他所有架构。此外,当扩大模型时,CrossFormer相对于其他架构的性能增益变得更加明显,这表明CrossFormer具有更大的潜力。
4.3 语义分割
实验设置。ADE20K(Zhou等,2017)被用作语义分割的基准数据集。它涵盖了广泛的150个语义类别,包括2万张训练图像和2千张验证图像。与检测模型类似,我们使用在ImageNet上预训练的权重对骨干网络进行初始化,并采用基于MMSegmentation(Contributors,2020)的语义FPN和UPerNet(Xiao等,2018)作为分割头部。对于FPN(Kirillov等,2019),我们使用学习率和权重衰减均为 1 × 1 0 − 4 1 \times 10^{-4} 1×10−4的AdamW优化器。模型以批量大小16进行8万次迭代训练。对于UPerNet,我们使用初始学习率为 6 × 1 0 − 5 6 \times 10^{-5} 6×10−5、权重衰减为0.01的AdamW优化器,并进行16万次迭代训练。
结果。所有结果如表5所示。与目标检测类似,当扩大模型时,CrossFormer相对于其他架构的性能增益更加明显。例如,CrossFormer-T在交并比(IOU)上比Twins-SVT-B高出1.4%的绝对值,但CrossFormer-B在IOU上比Twins-SVT-L高出3.1%的绝对值。总的来说,CrossFormer在密集预测任务(如检测和分割)上相对于其他架构的优势比在分类任务上更为显著,这表明注意力模块中的跨尺度交互对于密集预测任务比分类任务更为重要。
4.4 消融研究
跨尺度嵌入与单尺度嵌入。我们通过将跨尺度嵌入层替换为单尺度嵌入层来进行实验。如表6所示,当使用单尺度嵌入时,第一阶段中 8 × 8 8 \times 8 8×8的卷积核相比 4 × 4 4 \times 4 4×4的卷积核带来了 0.4 % 0.4 \% 0.4%( 81.9 % 81.9 \% 81.9% vs. 81.5 % 81.5 \% 81.5%)的绝对提升。这表明重叠的感受野有助于提升模型性能。此外,所有使用跨尺度嵌入的模型性能均优于使用单尺度嵌入的模型。特别是,与所有阶段都使用单尺度嵌入相比,我们的CrossFormer实现了 1 % 1 \% 1%( 82.5 % 82.5 \% 82.5% vs. 81.5 % 81.5 \% 81.5%)的绝对性能提升。对于跨尺度嵌入,我们还尝试了几种不同的卷积核大小组合,它们的表现都相近( 82.3 % ∼ 82.5 % 82.3 \% \sim 82.5 \% 82.3%∼82.5%)。综上所述,跨尺度嵌入可以带来较大的性能提升,但模型对不同卷积核大小的选择相对鲁棒。
LSDA与其他自注意力机制。比较了PVT和Swin中使用的两种自注意力模块。具体来说,PVT在计算自注意力时会牺牲小规模特征,而Swin则将自注意力限制在局部区域,放弃了长距离注意力。如表7a所示,与PVT式和Swin式的自注意力机制相比,我们的CrossFormer在准确率上至少高出绝对 0.6 % 0.6 \% 0.6%( 82.5 % 82.5 \% 82.5% vs. 81.9 % 81.9 \% 81.9%)。结果表明,以长短距离结合的方式执行自注意力最有利于提升模型性能。
DPB与其他位置表示。我们比较了绝对位置嵌入(APE)、相对位置偏置(RPB)和DPB模型的参数、浮点运算次数(FLOPs)、吞吐量和准确率。结果如表7b所示,DPB-residual表示带有残差连接的DPB。DPB和RPB在准确率上均比APE高出绝对 0.4 % 0.4 \% 0.4%,这表明相对位置表示比绝对位置表示更有益。此外,DPB以可忽略的额外成本达到了与RPB相同的准确率( 82.5 % 82.5 \% 82.5%);然而,如我们在3.2.2节中所述,DPB比RPB更灵活,适用于可变图像大小或组大小。结果还表明,DPB中的残差连接无助于提升模型性能,甚至会降低性能。
5 结论
我们提出了一种新颖的基于Transformer的视觉架构,即CrossFormer。其核心组件是跨尺度嵌入层(CEL)和长短距离注意力(LSDA),从而形成了交叉注意力模块。我们还提出了一种动态位置偏置,使相对位置偏置适用于任何输入大小。大量实验表明,CrossFormer在多个代表性视觉任务上优于其他最先进的视觉Transformer。特别是,CrossFormer在目标检测和分割方面表现出色,这表明CEL和LSDA对于密集预测任务至关重要。