ShiftwiseConv: Small Convolutional Kernel with Large Kernel Effect

该论文提出了一种新的纯卷积算子 ShiftwiseConv (SW) ，使用标准的小卷积核（如3×3）可以通过巧妙的设计替代大卷积核（如 51×51），并实现更优的性能。

大核 CNN 的复兴与瓶颈： 受到 Vision Transformer (ViT) 长距离建模能力的启发，近期 CNN 模型（如 RepLKNet, SLaK, UniRepLKNet）通过增大卷积核尺寸（从 7**×** 7 到 51**×**51 甚至更大）重新超越了 ViT 。
边际效应递减： 研究发现，单纯增大核尺寸带来的性能提升会出现"边际效应递减"甚至停滞，且计算成本高昂。
生物学灵感（视网膜）： 作者受人类视网膜结构启发。视网膜通过感光细胞（提取基本信号）与神经节细胞之间的多通路连接来处理信息，而不是靠单一的巨大感受野细胞。
核心思想（解耦）： 论文提出将大核卷积的关键因素解耦为两个独立部分：
1. 特征提取： 在特定粒度上提取基本信息（由小卷积核负责）。
2. 特征融合： 通过多通路建立长距离依赖关系（由 Shift 操作负责）。

作者并没有直接设计一个全新的模块，而是通过一系列渐进式的替代实验 ，从 SOTA 模型 SLaK 演化出了 SW 模块。

SW 模块利用标准的 $3\\times3$ 卷积，配合 Shift（位移） 操作来模拟大核的效果：

空间堆叠替代大核： 不同于传统的大核滑动窗口，SW 通过对特征图进行不同方向和步长的位移（Shift），使得后续的 3**×**3 卷积能够"看到"原本距离很远的像素，从而在数学上等效或近似于大核的感受野。
分组卷积与重排： 使用分组卷积（Group Conv）生成特征，然后根据序列号对输出特征进行适当的偏移，使其与大核卷积的输出位置对齐。

为了优化性能并减少参数，作者进行了一系列改进：

粗粒度剪枝 (Coarse-grained Pruning)： 不同于 SLaK 的细粒度稀疏化，SW 采用粗粒度策略，直接在训练中移除某些滤波器（Filter），更利于硬件加速。
消除冗余连接： 发现 SLaK 的双分支结构存在冗余，SW 将其合并并标准化 Padding 值，显著减少了参数量。
重参数化 (Reparameterization)： 引入重参数化技术（Rep），在训练时使用多分支，推理时合并，以此弥补参数减少带来的精度损失。
Ghost 瘦身策略 (Slimming)： 借鉴 GhostNet，引入比例因子 G，只有部分通道参与"大核模拟"计算，其余通道直接传递，进一步降低参数量。
增强特征利用率 (Enhance Utilization)： 发现简单的 Shift 操作会导致特征覆盖率低。作者引入了无序偏移（Disordered Offset）和增加通道重排的边数（Edges），打破了特征组合的可预测性，提高了特征图的利用率。
架构优化： 最终采用了类似 UniRepLKNet 的网络深度配置，并确认了"加深网络比加宽网络更有效" 。

论文在多个主流视觉任务上与 SOTA 模型进行了对比，SW 模型展现了卓越的性能。

SW 模型在参数量和 FLOPs 相当的情况下，优于现有的 Transformer 和大核 CNN：

SW-tiny (83.4%) 优于 UniRepLKNet-T (83.2%) 和 SLaK-T (82.5%) 。
SW-small (83.9%) 优于 UniRepLKNet-S (83.9%, 同分但在其他任务更强) 和 ConvNeXt-S (83.1%) 。
这也证明了 3×3 卷积可以取代大卷积核实现同等甚至更好的效果。

COCO 目标检测： SW-tiny (AP 52.2) 和 SW-small (AP 52.7) 均超过了 UniRepLKNet、SLaK 和 Swin Transformer 。
ADE20K 语义分割： SW-small 达到了 50.83 mIoU (MS)，优于 UniRepLKNet-S (50.5) 和 SLaK-S (49.6) 。
nuScenes 3D 目标检测： 在单目 3D 检测任务中，SW-small 取得了 31.42 mAP，略优于 UniRepLKNet-S 。

作者通过分析训练后的模型参数，得出了一些有趣的结论：

核心贡献： 提出了一种通过解耦（特征提取 + 多路融合）来替代大卷积核的新范式。
意义： 证明了在现代 CNN 架构中，大卷积核并不是必须的 。通过 ShiftwiseConv，使用标准 3**×3**卷积即可达到甚至超越大核模型的性能，同时保持了高效性。这与 VGG 时代的"堆叠小核替代大核"的理念在现代架构下产生了共鸣。