OverLoCK：一种采用“先总体把握再初步审视继而深入观察”架构的卷积神经网络（ConvNet），融合了上下文信息的动态卷积核

摘要

自上而下的注意力在人类视觉系统中扮演着关键角色，大脑首先对场景进行粗略浏览以发现显著线索（即先"纵观全局"），然后进行更细致的逐级检查（即再"仔细查看"）。然而，现代卷积神经网络（ConvNets）仍局限于金字塔结构，该结构通过连续下采样特征图来扩大感受野，忽略了这一重要的仿生学原理。我们提出了OverLoCK，这是首个明确整合自上而下注意力机制的纯卷积骨干网络架构。与金字塔骨干网络不同，我们的设计采用分支架构，包含三个协同子网络：1）一个编码低/中级特征的Base-Net；2）一个轻量级的Overview-Net，通过粗略的全局上下文建模生成动态自上而下注意力（即先"纵观全局"）；3）一个稳健的Focus-Net，在自上而下注意力的指导下进行更细致的感知（即再"仔细查看"）。为了充分发挥自上而下注意力的优势，我们进一步提出了一种新颖的上下文混合动态卷积（ContMix），该卷积能有效建模长距离依赖关系，同时保留固有的局部归纳偏置，即使在输入分辨率增加时也是如此，从而解决了现有卷积的重大局限性。我们的OverLoCK相较于现有方法表现出显著的性能提升。例如，OverLoCK-T达到了84.2%的Top-1准确率，显著优于ConvNeXt-B，且仅使用了约三分之一的FLOPs/参数。在目标检测方面，我们的OverLoCK-S在AP^b上比MogaNet-B高出1%。在语义分割方面，我们的OverLoCK-T在mIoU上比UniRepLKNet-T提高了1.7%。代码已公开，网址为https://github.com/LMMMEng/OverLoCK。

1 引言

自上而下的神经注意力[17,40,58]是人类视觉系统中的一种关键感知机制，它表明大脑首先处理视觉场景以快速形成整体高级感知，然后再与感官输入融合，使大脑能够做出更准确的判断，如物体的位置、形状和类别。许多先前的工作已将这种自上而下的注意力整合到视觉模型中，但其中一些由于模型设计不兼容[1,6,28,53,71]而不适合构建现代视觉骨干网络，而剩余的方法主要关注循环架构[3,4,54,60,76]，这些架构由于循环操作引入了额外的计算开销，导致性能与计算复杂度之间的权衡不理想。

自上而下注意力机制的一个关键特性是使用反馈信号作为明确指导，以定位场景中有意义的区域[58]。然而，大多数现有视觉骨干网络中采用的经典层次架构[23,43-45,66,67]与这一生物学机制相矛盾，因为它从低级到高级逐步编码特征，使得一层的输入特征仅依赖于前一层的特征。因此，在中间操作中缺乏明确的自上而下语义指导。为了探究这一点，我们可视化了三个代表性层次视觉模型的类别激活图[59]和有效感受野（ERFs）[49]：Switch-T[44]、ConvNeXt-T[45]和VMamba-T[43]。如图2所示，尽管这些图像分类模型在不同程度上捕捉到了长距离依赖关系，但在特征图中难以准确地将物体定位到正确的类别标签，尤其是在距离分类器层较远的Stage 3。因此，如何开发一种现代卷积神经网络，在利用自上而下注意力机制的同时实现出色的性能-复杂度权衡，仍然是一个开放的问题。

基于上述讨论，我们提出了一种受人类视觉系统中自上而下注意力机制启发的仿生深度阶段分解策略（DDS）。与先前的工作不同，我们的目标是在动态自上而下语义上下文的指导下增强卷积神经网络中的特征图和核权重。如图3所示，DDS将网络分解为三个子网络：Base-Net、Overview-Net和Focus-Net。具体来说，Base-Net编码低级和中级信息，其输出被输入到一个轻量级的Overview-Net中，以快速收集语义上有意义但质量较低的上下文表示，类似于视觉感知中的"纵观全局"过程。随后，我们将Overview-Net的输出指定为上下文先验，与Base-Net的输出一起输入到一个更深、更强大的Focus-Net中，以获得更准确和信息丰富的高级表示，类似于视觉感知中的"仔细查看"过程。

由于自上而下的上下文包含整个输入图像的信息，为了充分发挥其优势并将其信息吸收到卷积核中，Focus-Net应采用强大的动态卷积作为标记混合器，能够自适应地建模长距离依赖关系以产生大感受野，同时保留局部归纳偏置以捕捉细微的局部细节。然而，我们发现现有的卷积无法同时满足这些要求。与能够在各种输入分辨率下自适应地建模长距离依赖关系的自注意力机制[14, 64, 66, 78]和状态空间模型[16, 18, 43, 71]不同，大核卷积[12, 13, 42, 45, 74]和动态卷积[8, 36, 37]由于固定核大小，即使输入图像的分辨率越来越大，仍局限于有限区域，表明其长距离建模能力较弱。尽管可变形卷积[10, 69]可以在一定程度上缓解这些问题，但可变形核形状牺牲了卷积的固有归纳偏置，导致局部感知能力相对较弱。因此，使纯卷积拥有与基于Transformer和Mamba的模型相当的动态全局建模能力，同时保留强大的归纳偏置，仍然是一个挑战。

为了解决这个问题，我们引入了一种新颖的上下文混合动态卷积（ContMix），该卷积在保持强大归纳偏置的同时动态地建模长距离依赖关系。具体来说，对于输入特征图中的每个标记，我们计算其相对于自上而下上下文特征图上的一组区域中心的亲和力，从而生成一个亲和力图。随后，我们利用一个可学习的线性层来变换亲和力图的每一行，生成空间变化的动态卷积核。在这方面，每个核权重都携带来自自上而下语义上下文的全局信息。因此，在使用我们的动态卷积核进行卷积操作时，每个标记都与核中编码的全局信息进行交互，从而尽管卷积核大小固定，仍能捕捉到长距离依赖关系。

配备了提出的DDS和ContMix，我们提出了一种新颖的"先纵观全局-再仔细查看"的具有上下文混合动态核的卷积神经网络（OverLoCK）。如图1所示，我们的OverLoCK在代表性卷积神经网络、Transformer和基于Mamba的模型中表现出卓越的性能，同时在速度和准确性之间取得了出色的平衡。例如，在ImageNet-1K数据集上，OverLoCK-T达到了84.2%的Top-1准确率，比UniRepLKNet-T[13]高出1%，比VMamba-T[43]高出1.6%。在下游任务中，OverLoCK也表现出领先性能。例如，OverLoCK-S在语义分割的mIoU上比MogaNet-B[39]高出1.2%，在目标检测的AP^b上比PelK-S[7]高出1.4%。此外，如图2所示，与其他竞争对手相比，我们的方法能够生成更大的ERF，具有强大的局部归纳偏置和更合理的特征响应。

2. 相关工作

卷积神经网络的演变 。自AlexNet[33]问世以来，卷积神经网络（ConvNets）逐渐成为计算机视觉领域的主流架构。VGGNet[61]引入了堆叠小卷积核以构建深度网络的概念。ResNet[23]和DenseNet[30]进一步提出了跳跃连接，以解决深度网络中的梯度消失/爆炸问题。然而，随着视觉Transformer[14, 44, 48, 63, 66, 80]的兴起，ConvNets在视觉任务中的主导地位受到了挑战。因此，近期的方法提出了使用越来越大的卷积核尺寸来模拟自注意力机制[14]并建立长距离依赖关系[7, 12, 13, 42, 45, 74]。ConvNeXt[45]开创性地使用 7 × 7 7 \times 7 7×7卷积核构建视觉主干网络，超越了Swin Transformer[44]的性能。ReLPNet[12]进一步通过使用 31 × 31 31 \times 31 31×31卷积核探索了超大型卷积核的优异性能。另一方面，门控机制已在ConvNets中得到了广泛探索[39, 50, 51, 56, 73]。例如，MogaNet[39]引入了多阶门控聚合模块，以增强对多尺度特征表示的精炼能力。StarNet[50]揭示了门控机制中逐元素乘法表现优异的原因。最近，RDNet[32]重新思考了DenseNet的设计，并提出了一种高效的密集连接ConvNet。与以往的工作不同，本文从架构和混合器两个角度出发，专注于提升ConvNets的性能。

动态卷积。动态卷积已被证明通过使用输入依赖的滤波器来增强特征表示，从而有效提高ConvNets的性能[8, 22, 36, 72]。除了常规的通道变化建模外，一些方法[20, 37, 55, 75]还提出了空间变化建模，可以为特征图中的单个像素生成不同的卷积权重。此外，为了使卷积核的权重和形状都能动态变化，InternImage[69]重新设计了可变形卷积[10]，实现了显著的性能提升。然而，以往的工作未能同时建模长距离依赖关系并保持强大的局部归纳偏置，而我们的新动态卷积有效地解决了这一局限性。

仿生视觉模型。人类视觉系统启发了许多优秀视觉主干网络的设计。例如，几种先进的视觉主干网络[7, 52, 73]受到了周边感知机制[35]的启发，实现了显著的性能。同样，自上而下的注意力机制[17, 40, 58]促进了计算机视觉和机器学习的发展，例如增强特定任务的性能[1, 6, 28, 53, 71]，探索新的学习算法[77]，以及设计具有循环风格的通用架构[3, 4, 54, 76]。最近，AbsViT[60]引入了一种基于反馈的视觉Transformer主干网络，该网络重用网络输出以重新校准早期特征。与上述工作不同，我们提出了一种新颖的现代基于ConvNet的视觉主干网络，该网络能够高效地生成和利用自上而下的指导，在各种视觉任务中实现显著的性能提升。

3 方法论

3.1 深度阶段分解

概述。受人类视觉系统的"先整体后局部"机制[17, 40]的启发，我们提出了一种深度阶段分解策略（DDS），与经典的层次化架构不同，DDS将网络分解为三个不同的子网络：Base-Net、Overview-Net和Focus-Net。如图3所示，Base-Net通过三个嵌入层将输入图像逐步下采样至 H 64 × W 64 \frac{H}{64} \times \frac{W}{64} 64H×64W，生成中级特征图。该中级特征图被输入到轻量级的Overview-Net以及更深、更强大的Focus-Net中。Overview-Net通过立即将中级特征图下采样至 H 32 × W 32 \frac{H}{32} \times \frac{W}{32} 32H×32W，快速生成具有语义意义但质量较低的概述特征图，该特征图作为对输入图像的整体理解，为Focus-Net的所有构建块提供整体上下文信息。因此，它被称为上下文先验。最后，在上下文先验的指导下，Focus-Net逐步精炼中级特征图，同时扩大感受野以获得更准确和信息丰富的高级表示。请注意，上述设计中实际上存在两个主干网络，一个由Base-Net和Overview-Net级联而成，另一个由Base-Net和Focus-Net级联而成。每个主干网络由四个阶段组成，每个阶段由四个嵌入层及其后续网络构建块定义。我们的DDS设计通过让一个Base-Net为两个主干网络"服务"中级特征图，从而最小化开销。

在ImageNet-1K上进行预训练时，为了在Focus-Net和Overview-Net中实现表示学习，每个网络都连接到自己的分类头，并对两个分类器施加相同的分类损失。当预训练网络转移到下游任务时，我们不再对Overview-Net应用辅助监督信号，因为它已经在预训练阶段学习了高级表示。此外，在密集预测任务中应用辅助监督会使训练过程耗时。Focus-Net始终用于分类任务中的预测。在密集预测任务中，我们使用Base-Net在 1 / 8 × 1 / 8 1/8 \times 1/8 1/8×1/8和 1 / 4 × 1 / 4 1/4 \times 1/4 1/4×1/4分辨率下的特征作为Focus-Net的特征，并使用 1 / 16 × 1 / 16 1/16 \times 1/16 1/16×1/16和 1 / 32 × 1 / 32 1/32 \times 1/32 1/32×1/32分辨率构建特征金字塔。这四组特征也对应于我们提出的ConvNet主干网络、Base-Net和Overview-Net的1至4阶段。如图4（a）所示，我们采用基本块作为Base-Net和Overview-Net的构建块。输入特征首先被输入到残差 3 × 3 3 \times 3 3×3深度可分离卷积（DWConv）中以执行局部感知。然后，输出被转发到一个由层归一化[34]层、膨胀重复卷积（RepConv）层[13]、SE层[31]和卷积前馈网络（ConvFFN）[67]组成的块中。

Focus-Net 。如图3（b）所示，Focus-Net采用了一个更复杂的构建块，称为动态块，该块主要由残差 3 × 3 3 \times 3 3×3深度可分离卷积、门控动态空间聚合器（GDSA）和ConvFFN组成。GDSA的流程如图3（c）所示，其中它使用所提出的ContMix（第3.2节）作为核心来混合特征，并额外引入了门控机制来消除上下文噪声[18, 39, 50]。请注意，Focus-Net中嵌入层之前的动态块属于Base-Net+Focus-Net主干的第3阶段。

上下文流 。在 Focus-Net 内部存在一个动态的上下文流。来自 Overview-Net 的上下文先验不仅在特征和核权重级别为 Focus-Net 内部提供指导，而且还会在正向传播过程中在每个块内更新。我们将第 i i i 个块的入口处的上下文先验和特征图分别表示为 P i ∈ R C i × H i × W i P_i\in \mathbb{R}^{C_i\times H_i\times W_i} Pi∈RCi×Hi×Wi 和 Z i ∈ R C i × H × W Z_i\in \mathbb{R}^{C_i\times H\times W} Zi∈RCi×H×W。 P i P_i Pi 和 Z i Z_i Zi 通过连接融合在一起，然后被输入到块中（图 3 (b)）。在块内，特征级指导是通过在 GSDA 内部计算一个动态门来实现的，该动态门使用 GSDA 的输入特征来调制特征图（图 3 ©），这是对上述连接后的特征图应用 1 × 1 1\times1 1×1 卷积后接 SiLU 激活函数 [15] 的结果。随后，动态门与其并行分支的输出按元素相乘。另一方面，为了实现权重级指导，上下文先验被注入到动态卷积中，具体方法是在 ContMix 中利用 P i P_i Pi 计算动态核权重，这将在下一小节中详细说明。在离开块之前，融合后的特征图被拆分为 P i ∈ R C 1 × H × W P_i\in \mathbb{R}^{C_1\times H\times W} Pi∈RC1×H×W 和 Z i + 1 ∈ R C 1 × H × W Z_{i+1}\in \mathbb{R}^{C_1\times H\times W} Zi+1∈RC1×H×W，这可以看作是解纠缠和更新后的上下文先验和特征图。为了防止上下文先验被稀释，我们将初始上下文先验 P 0 P_0 P0 加到 P i P_i Pi 上，即 P i + 1 = α P i + β P 0 P_{i+1} = \alpha P_i + \beta P_0 Pi+1=αPi+βP0，其中 α \alpha α 和 β \beta β 是可学习的标量，在训练前均初始化为 1。

我们对原始上下文先验进行通道缩减和空间上采样，以分别节省计算量并匹配 Focus-Net 的输入分辨率。这产生了上下文流的初始上下文先验 P 0 P_0 P0。

3.2 具有上下文混合能力的动态卷积

在本节中，我们探索了一种解决方案，该方案使卷积具备长距离依赖建模的能力，以便更好地处理不同的输入分辨率。同时，我们仍然希望它们保留强大的归纳偏置。为了在充分利用 Overview-Net 提供的上下文先验的同时实现这些目标，我们提出了一种具有上下文混合能力的新型动态卷积，即 ContMix。我们的关键思想是使用特征图中一组区域中心处单个标记与所有标记之间的亲和值集合来表示标记与其上下文之间的关系。然后，这些亲和值可以被聚合起来，以可学习的方式定义标记级动态卷积核，从而将上下文知识注入到卷积核的每个权重中。一旦这些动态核通过滑动窗口应用到特征图上，特征图中的每个标记都会被通过区域中心收集到的近似全局信息所调制。因此，长距离依赖可以被有效地建模。

标记级全局上下文表示 。如图 5 所示，给定一个输入特征图 X ∈ R C × H × W \mathbf{X}\in\mathbb{R}^{C\times H\times W} X∈RC×H×W，我们首先将其转换为两部分，即 Q ∈ R C × H W = Re ⁡ ( W q X ) \mathbf{Q}\in\mathbb{R}^{C\times HW}=\operatorname{Re}(\mathbf{W}{q}\mathbf{X}) Q∈RC×HW=Re(WqX) 和 K ∈ R C × S 2 = Re ⁡ ( W k Pool ⁡ ( X ) ) \mathbf{K}\in\mathbb{R}^{C\times S^{2}}=\operatorname{Re}(\mathbf{W}{k} \operatorname{Pool}(\mathbf{X})) K∈RC×S2=Re(WkPool(X))，其中 W q \mathbf{W}{q} Wq 和 W k \mathbf{W}{k} Wk 表示 1 × 1 1\times1 1×1 卷积层， Re ⁡ ( ⋅ ) \operatorname{Re}(\cdot) Re(⋅) 指的是重塑操作， K \mathbf{K} K 表示通过自适应平均池化将 X \mathbf{X} X 聚合到 S × S S\times S S×S 个区域中心。接下来，我们将 Q \mathbf{Q} Q 和 K \mathbf{K} K 的通道均匀地分成 G G G 组，得到 { Q g } g = 1 G \{\mathbf{Q}^{g}\}{g=1}^{G} {Qg}g=1G 和 { K g } g = 1 G \{\mathbf{K}^{g}\}{g=1}^{G} {Kg}g=1G，使得 Q g ∈ R C G × H W \mathbf{Q}^{g}\in\mathbb{R}^{\frac{C}{G}\times HW} Qg∈RGC×HW 和 K g ∈ R C G × S 2 \mathbf{K}^{g}\in\mathbb{R}^{\frac{C}{G}\times S^{2}} Kg∈RGC×S2。这里的组类似于多头注意力 [14] 中的头。由于每对 Q g \mathbf{Q}^{g} Qg 和 K g \mathbf{K}^{g} Kg 都被展平为二维矩阵，因此它们之间的简单矩阵乘法可以计算出 G G G 个亲和矩阵 { A g } g = 1 G = { Q g T K g } g = 1 G \{\mathbf{A}^{g}\}{g=1}^{G}=\{\mathbf{Q}^{g^{\mathrm{T}}} \mathbf{K}^{g}\}{g=1}^{G} {Ag}g=1G={QgTKg}g=1G，其中 A g ∈ R H W × S 2 \mathbf{A}^{g}\in\mathbb{R}^{HW\times S^{2}} Ag∈RHW×S2。亲和矩阵 A g \mathbf{A}^{g} Ag 的第 i i i 行 A : i g \mathbf{A}^{g}_{:i} A:ig 保存了 Q g \mathbf{Q}^{g} Qg 中第 i i i 个标记与 K g \mathbf{K}^{g} Kg 中所有标记之间的亲和值。

标记级全局上下文混合 。为了生成更稳健的特征表示，我们定义了 G G G 个空间变化的 K × K K\times K K×K 动态核。首先，我们使用另一个可学习的线性层 W d ∈ R S 2 × K 2 \mathbf{W}{d}\in\mathbb{R}^{S^{2}\times K^{2}} Wd∈RS2×K2 通过在每个亲和矩阵 A g \mathbf{A}^{g} Ag 中对作为矩阵行存储的标记级亲和值进行矩阵乘法来聚合它们。请注意，所有 G G G 个亲和矩阵共享相同的 W d \mathbf{W}{d} Wd 以节省计算效率。然后，使用 softmax 函数对聚合后的亲和值进行归一化。这两个操作可以表示为 D ϵ = softmax ( A ϵ W d ) ∈ R H W × K 2 \mathbf{D^{\epsilon}} = \text{softmax}(\mathbf{A^{\epsilon}W}_{d}) \in \mathbb{R}^{HW \times K^{2}} Dϵ=softmax(AϵWd)∈RHW×K2。最后， D ϵ \mathbf{D^{\epsilon}} Dϵ 的每一行可以被重塑为目标核形状，以在每个标记位置生成一个输入依赖的核。在卷积操作期间，特征图 X \mathbf{X} X 的通道也被均匀地分成 G G G 组，同一组内的通道共享相同的动态核。

实现。我们的 ContMix 是一个通用的即插即用模块。在我们的 OverLoCK 网络的动态块中，ContMix 进行了如下定制。上述 Q \mathbf{Q} Q 和 K \mathbf{K} K 矩阵是使用 X \mathbf{X} X 中对应于 Z i \mathbf{Z}{i} Zi 和 P i \mathbf{P}{i} Pi（最新的_上下文先验_）的通道计算的。与使用当前融合特征 X \mathbf{X} X 计算 Q \mathbf{Q} Q 和 K \mathbf{K} K 相比，这种设置产生了更好的性能。此外，我们根据经验将 S S S 设置为 7，以确保我们的 ContMix 享有线性时间复杂度。同时，许多先前的工作 [12, 13, 42] 表明，结合大核和小核可以更好地提取多尺度特征。因此，我们将 ContMix 中的一半组分配给大核，剩余的组分配给小核，其大小根据先前的工作设置为 5 × 5 5\times 5 5×5，从而使用不同的核来建模长距离依赖和局部细节。我们还使用了一个带有 K × K K\times K K×K 核的扩张 RepConv 层来增加通道多样性。

3.3 网络架构

我们的 OverLoCK 网络有四种架构变体，包括 Extreme-Tiny (XT)、Tiny (T)、Small (S) 和 Base (B)。如表 1 所示，我们使用四个变量来控制模型大小：Channels 、Blocks 、Kernel Sizes 和 Groups 。例如，在 OverLoCK-XT 中， C h a n n e l s = { [ 56 , 112 , 256 ] , [ 256 ] , [ 256 , 336 ] } Channels = \{[56, 112, 256], [256], [256, 336]\} Channels={[56,112,256],[256],[256,336]}，表示 Base-Net 的三个阶段的通道数分别为 [ 56 , 112 , 256 ] [56, 112, 256] [56,112,256]，Overview-Net 的通道数为 256，Focus-Net 的两个阶段的通道数分别为 [256, 336]。

Blocks 和 Kernel Sizes 的定义类似。此外，Groups = [4, 6] 表示 Focus-Net 的两个阶段中 ContMix 的动态核中的组数分别为 4 和 6。

4 实验

在本节中，我们对各种视觉任务进行了全面的实验评估，首先从图像分类开始。然后，我们将预训练模型迁移到下游任务，包括目标检测和语义分割。由于篇幅限制，我们仅在本节中报告部分结果，更多实验结果详见附录。

4.1 图像分类

设置。 我们在ImageNet-1K数据集[11]上进行实验，并遵循DeiT[63]中描述的实验设置，以确保公平比较。具体而言，所有模型均使用AdamW优化器[46]训练300个epoch。OverLoCK-XT、-T、-S和-B模型的随机深度率[29]分别设置为0.1、0.15、0.4和0.5。所有实验均在8块NVIDIA H800 GPU上进行。

结果。 如表2所示，我们的纯卷积神经网络模型相比其他竞争者取得了显著的性能提升。例如，OverLoCK-XT在Top-1准确率上分别超过了强大的基于Transformer的模型BiFormer-T[80]和最近的大核卷积神经网络UniReplkNet-N[13] 1.3%和1.1%。对于微型模型，我们的OverLoCK-T与其他方法相比也取得了最佳性能，实现了84.2%的Top-1准确率，分别比MogaNet-S[39]和PeLK-T[7]在Top-1准确率上提高了0.8%和1.6%。当扩展到更大的模型时，我们的OverLoCK仍然保持显著优势。具体而言，OverLoCK-S在计算复杂度相当的情况下，分别比BiFormer-B和UniReplkNet-S在Top-1准确率上提高了0.5%和0.9%。对于最大的模型，OverLoCK-B实现了令人印象深刻的85.1%的Top-1准确率，在计算复杂度显著降低的情况下，比MaxViT-B在Top-1准确率上提高了0.2%。同时，我们在单块NVIDIA L40S GPU上使用批大小为128评估了不同模型的吞吐量。图1表明，我们的OverLoCK在速度和准确率之间取得了出色的平衡。例如，OverLoCK-S的吞吐量比MogaNet-B高出100多张图像/秒，同时将Top-1准确率从84.3%显著提高到84.8%。类似地，OverLoCK-XT的吞吐量比BiFormer-T高出600多张图像/秒，同时将Top-1准确率显著提高了1.3%。总体而言，据我们所知，OverLoCK是第一个在ImageNet-1K上相对于强大基线取得如此显著性能提升的纯卷积神经网络模型。

4.2 目标检测和实例分割

设置。 我们使用COCO 2017数据集[41]评估我们的网络架构在目标检测和实例分割任务上的表现。我们采用了Mask R-CNN[24]和Cascade Mask R-CNN[2]框架，遵循Swin[44]中的相同实验设置。骨干网络首先在ImageNet-1K上进行预训练，然后进行12个epoch（1 × \times ×计划）和36个epoch（3 × \times ×计划，采用多尺度训练）的微调。

结果。 如表3和表4所示，OverLoCK相比其他方法表现出显著优势。例如，使用Mask R-CNN 1 × \times ×计划时，OverLoCK-S在AP b ^b b上分别比BiFormer-B和MogaNet-B高出0.8%和1.5%。当使用Cascade Mask R-CNN时，OverLoCK-S在AP b ^b b上分别比PeLK-S和UniRepLKNet-S高出1.4%和0.6%。值得注意的是，我们观察到一个有趣的现象：尽管基于卷积神经网络的方法在图像分类任务上与基于Transformer的方法取得了相当的性能，但在检测任务上存在显著的性能差距。例如，MogaNet-B和BiFormer-B在ImageNet-1K上都实现了84.3%的Top-1准确率，但前者在检测任务上落后于后者。这验证了我们之前的观点，即卷积神经网络的固定核大小导致感受野有限，在使用大输入分辨率时会导致性能下降。相反，我们的OverLoCK即使在大分辨率下也能有效捕捉长距离依赖关系，从而表现出色。

4.3 语义分割

设置。 我们使用UperNet框架[70]在ADE20K数据集[79]上进行语义分割实验。为了公平比较，我们使用在ImageNet-1K上预训练的权重初始化所有骨干网络，遵循Swin[44]中概述的相同训练设置。

结果。 表5表明，我们的OverLoCK在语义分割上取得了领先性能。例如，OverLoCK-T在mIoU上分别比MogaNet-S和UniRepLKNet-T高出1.1%和1.7%，并超过了强调全局建模的VMamba-T 2.3%的mIoU。这种优势在小型和基础模型中均一致观察到。此外，我们发现感受野有限的问题也会对卷积神经网络在分割任务上的性能产生负面影响，例如，尽管MogaNet-B在分类上的准确率与BiFormer-B相同，但在分割任务上落后了0.9%。相比之下，我们的OverLoCK有效缓解了这一问题。

4.4 消融研究

设置：我们在图像分类和语义分割任务上进行了全面的消融研究，以评估OverLoCK中各个组件的有效性。具体而言，我们根据[7, 42]在ImageNet-1K数据集上对每个模型变体进行了120个周期的训练，同时保持其余训练设置与第4.1节中描述的一致。随后，我们在ADE20K数据集上对预训练模型进行了80K次迭代步骤的微调，为了加快训练速度，批量大小设置为32，同时保持其余设置与第4.3节中概述的一致。由于篇幅限制，更多的消融研究结果在附录中呈现。

我们OverLoCK模型的详细路线图 ：首先，我们的目标是使用静态大核卷积开发一个强大的基线模型。为此，我们首先评估了基本块（图4（a））中不同组件的性能。具体而言，我们使用一个普通的卷积层后跟一个普通的FFN[14]作为构建块构建了一个层次化模型。该模型由四个阶段组成，每个阶段的块数设置为 [ 2 , 2 , 9 , 4 ] [2,2,9,4] [2,2,9,4]，每个阶段的通道数设置为 [ 56 , 112 , 304 , 400 ] [56,112,304,400] [56,112,304,400]。四个阶段的卷积核大小与XT模型一致。该模型被称为"PlainNet"，其Top-1/mIoU为76.3%/38.8%，如表6所示。然后，我们将普通卷积层转换为扩张RepConv层[13]，称为"w/ Dilated RepConv"（Top-1/mIoU：76.6%/39.3%）。接下来，我们逐步添加一个SE层（Top-1/mIoU：77.1%/39.6%）、一个 3 × 3 3\times3 3×3的DWConv（Top-1/mIoU：78.0%/40.2%），并将普通的FFN替换为ConvFFN（Top-1/mIoU：78.5%/41.1%）。由此得到的网络被称为"Baseline"。

随后，我们探索了三种将自上而下的注意力注入到该基线网络中的策略。（1）受AbsViT[60]启发，我们通过上采样第4阶段的输出并将其与第3阶段的输入连接起来构建了一个递归模型，称为"递归模型"。然而，该模型的性能下降到76.8%/39.5%，且复杂性更高，这表明递归设计不适合现代基于卷积神经网络的主干网络。（2）我们采用我们提出的DDS将基线网络分解为三个相互连接的子网络。Base-Net和Overview-Net的输出被连接起来并输入到Focus-Net中。为了确保与基线模型相似的计算成本，三个子网络中的块数和通道数分别设置为 [ 56 , 112 , 304 ] [56,112,304] [56,112,304]、 [ 400 ] [400] [400]、 [ 304 , 400 ] [304,400] [304,400]和 [ 2 , 2 , 3 ] [2,2,3] [2,2,3]、 [ 2 ] [2] [2]、 [ 6 , 2 ] [6,2] [6,2]。该模型被称为"DDS模型"，其Top-1准确率为79.0%/41.6%。（3）在"DDS模型"中，我们仅将Overview-Net的投影输出输入到Focus-Net中，而没有将其与Base-Net的输出连接起来，得到的模型被称为"w/o特征馈送"。该模型降低了性能，表明将Base-Net的输出输入到Focus-Net中的重要性。

最后，我们评估了权重级上下文指导的影响，方法是用我们提出的动态块替换Focus-Net中的每个现有块（不包括门控模块），并确保上下文先验更新流不使用初始的_上下文先验_。此修改保持了与我们XT模型相同的块数和通道数，确保了公平比较下的可比计算复杂性。该模型被称为"静态 → \rightarrow →动态"，显著提高了Top-1/mIoU至80.0%/42.9%。接下来，为了使Overview-Net生成语义上有意义的上下文特征，我们使用辅助分类损失来监督其输出。得到的模型被称为"w/辅助损失"，其Top-1/mIoU进一步提高了0.2%/0.2%。随后，我们按照第5节的描述，将初始的_上下文先验_纳入每个动态块中，以防止在更新过程中_上下文先验_中有意义的信息被稀释。该变体被标记为"w/初始先验"，将Top-1/mIoU提高了0.2%/0.3%。最后，我们通过添加门控模块来评估上下文引导的特征调制的影响。这得到了我们的XT模型，其进一步将Top-1/mIoU提高到了80.8%/43.8%。总之，我们提出的方法在显著的性能提升中发挥了至关重要的作用。

动态标记混合器的比较 ：为了对动态标记混合器进行公平的比较，我们通过将四个阶段的块数和通道数分别设置为 [ 2 , 2 , 6 , 2 ] [2,2,6,2] [2,2,6,2]和 [ 64 , 128 , 256 , 512 ] [64,128,256,512] [64,128,256,512]，并采用不重叠的补丁嵌入和标准的前馈网络（FFN），构建了一个类似Swin的架构[44]。我们以可分离卷积风格[9]实现了DyConv和ODConv，以确保与其他方法具有可比的计算复杂性。此外，除了VOLO（其更大的卷积核会导致显著更多的参数）外，我们将所有方法的卷积核/窗口大小设置为 7 × 7 7\times7 7×7。从表7可以看出，我们的上下文混合动态卷积（ContMix）在图像分类和语义分割任务上都取得了最佳结果。值得注意的是，尽管ContMix在低分辨率输入的分类任务上表现出与Natten和DCNv3相似的性能，但在高分辨率输入的语义分割任务上表现出了明显的优势。这是因为ContMix在保留局部归纳偏置的同时捕捉了长距离依赖关系。

5 结论

本文提出了一种仿生的深度阶段分解（DDS）机制，该机制将语义上有意义的上下文注入到网络的中间阶段，并提出了一种具有上下文混合能力的新型动态卷积，称为ContMix，它在保留强归纳偏置的同时捕捉了长距离依赖关系。通过整合这些组件，我们提出了一个强大的、纯基于卷积神经网络的视觉主干网络，称为OverLoCK，与强大的基线相比，其性能明显更优。

附录

A. 更多消融研究

在4.4节所述的训练设置基础上，我们进一步开展了一系列深入的消融实验，以仔细考察所提方法中每个组件的影响。

卷积核大小的影响 。我们比较了在不同卷积核大小设置下的性能，如表6所示（所提方法中卷积核大小的定义见3.3节）。结果表明，配置 { [ 17 , 15 , 13 ] , [ 7 ] , [ 13 , 7 ] } \{[17,15,13],[7],[13,7]\} {[17,15,13],[7],[13,7]}在图像分类和语义分割任务上均能取得最佳性能。进一步增大卷积核并不会带来额外的性能提升。

阶段比例的影响 。阶段比例 是指Base-Net最后一个阶段的块数与Focus-Net第一个阶段的块数之比。在OverLoCK模型的默认设置中，阶段比例为1:2，旨在为Focus-Net分配更多的网络块以提取稳健的上下文信息。在本节中，我们研究了阶段比例 的影响。除了默认的1:2设置外，我们进一步将阶段比例 设置为1:1和1:3，同时保持网络块的总数不变。表B中的结果表明，阶段比例 为1:2时取得了最佳结果。我们认为这是因为过小的阶段比例 会导致Focus-Net中的块数不足，从而阻碍判别性深层特征的提取。相反，过大的阶段比例 会导致Base-Net中的块数不足，从而无法提供足够的上下文指导。

B. 图像分类的附加实验

B.1. 大分辨率评估

遵循先前的研究[32, 45, 74]，我们进一步研究了在更高分辨率（即 384 × 384 384\times 384 384×384）下，在ImageNet-1K数据集上的图像分类性能。具体来说，我们在 224 × 224 224\times 224 224×224输入上对基础模型进行预训练，然后在 384 × 384 384\times 384 384×384输入上对其进行微调30个epoch。如表G所示，我们的OverLoCK-B模型在高分辨率输入条件下取得了优越的性能。值得注意的是，OverLoCK-B在Top-1准确率上比MaxViT-B高出0.5%，同时参数数量减少了三分之一以上。与大型卷积神经网络PeLK-B相比，我们的方法也取得了显著改进。这些结果进一步验证了所提方法在处理大分辨率输入时的稳健性。

B.2. 鲁棒性评估

我们进一步使用ImageNet的分布外（OOD）基准（包括ImageNet-V2 [57]、ImageNet-A [26]、ImageNet-R [25]和ImageNet-Sketch [65]）来评估模型的鲁棒性。如表H所示，我们的方法在不同数据集上均展现出卓越的鲁棒性，优于代表性的卷积神经网络、视觉Transformer和Vision Mamba。值得注意的是，尽管OverLoCK-B在ImageNet-1K上的Top-1准确率仅比MogaNet-L高出0.4%，但它在OOD数据集上取得了显著提升，在ImageNet-V2上提升了1.4%，在ImageNet-A上提升了6.7%，在ImageNet-R上提升了6.3%，在ImageNet-Sketch上提升了6.8%。这些结果表明，我们的纯卷积神经网络具有强大的鲁棒性。

C 速度分析

我们在图1中提供了速度-准确率权衡的比较。更多详细信息列于表I，其中OverLoCK变体通常比另一个网络的更大变体实现更快的速度和更高的准确率，展现了速度与准确率之间的出色权衡。例如，OverLoCK-XT 的吞吐量达到1672 imgs/s，比 Swin-T 提高了300多张图像/秒，同时显著提升了Top-1准确率1.4%。此外，OverLoCK-T 的吞吐量比 ConvNeXt-B 提高了约200 imgs/s，而计算量仅约为后者的三分之一，性能却更好。与更先进的模型相比，OverLoCK 仍具有显著优势。例如，OverLoCK-S 的吞吐量比 MogaNet-B 高出100多张图像/秒，同时将Top-1准确率从84.3%提升至84.8%。同样，OverLoCK-XT 的吞吐量比 BiFormer-T 高出600多张图像/秒，同时显著提升了Top-1准确率1.3%。

D. 可视化分析

D.1. 上下文指导的影响

为了直观理解上下文指导的影响，我们使用 Grad-CAM [59] 分别可视化了在 ImageNet-1K 验证集上，OverLoCK-T 中 Overview-Net 和 Focus-Net 生成的类激活图。如图A所示，Overview-Net 首先对物体进行粗略定位，当该信号作为自上而下的指导用于 Focus-Net 时，物体的位置和形状变得更加准确。

D.2. 有效感受野分析

为了直观展示OverLoCK的表征能力，我们比较了复杂度相当的其他代表性模型与 OverLoCK-T 的有效感受野（ERF）[49]。可视化结果使用了从 ImageNet-1K 验证集中随机抽取的300多张 224 × 224 224\times 224 224×224分辨率的图像。如图B所示，我们的模型不仅产生了全局响应，还表现出显著的局部敏感性，表明OverLoCK 能够同时有效地建模全局和局部上下文。