论文下载地址:https://arxiv.org/abs/2401.12736
论文代码地址:https://github.com/lidc54/shift-wiseConv
该论文提出了一种新的纯卷积算子 ShiftwiseConv (SW) ,使用标准的小卷积核(如3×3)可以通过巧妙的设计替代大卷积核(如 51×51),并实现更优的性能。
1. 核心背景与动机 (Motivation)
-
大核 CNN 的复兴与瓶颈: 受到 Vision Transformer (ViT) 长距离建模能力的启发,近期 CNN 模型(如 RepLKNet, SLaK, UniRepLKNet)通过增大卷积核尺寸(从 7**×** 7 到 51**×**51 甚至更大)重新超越了 ViT 。
-
边际效应递减: 研究发现,单纯增大核尺寸带来的性能提升会出现"边际效应递减"甚至停滞,且计算成本高昂。
-
生物学灵感(视网膜): 作者受人类视网膜结构启发。视网膜通过感光细胞(提取基本信号)与神经节细胞之间的多通路连接来处理信息,而不是靠单一的巨大感受野细胞 。
-
核心思想(解耦): 论文提出将大核卷积的关键因素解耦为两个独立部分:
-
特征提取: 在特定粒度上提取基本信息(由小卷积核负责)。
-
特征融合: 通过多通路建立长距离依赖关系(由 Shift 操作负责)。
-
2. 方法论:Shiftwise (SW) Conv 架构设计
作者并没有直接设计一个全新的模块,而是通过一系列渐进式的替代实验 ,从 SOTA 模型 SLaK 演化出了 SW 模块 。
2.1 核心机制:Shift 操作 (Shift Operation)
SW 模块利用标准的 3\\times3 卷积,配合 Shift(位移) 操作来模拟大核的效果:
-
空间堆叠替代大核: 不同于传统的大核滑动窗口,SW 通过对特征图进行不同方向和步长的位移(Shift),使得后续的 3**×**3 卷积能够"看到"原本距离很远的像素,从而在数学上等效或近似于大核的感受野 。
-
分组卷积与重排: 使用分组卷积(Group Conv)生成特征,然后根据序列号对输出特征进行适当的偏移,使其与大核卷积的输出位置对齐。
2.2 演进过程与关键技术点
为了优化性能并减少参数,作者进行了一系列改进:
-
粗粒度剪枝 (Coarse-grained Pruning): 不同于 SLaK 的细粒度稀疏化,SW 采用粗粒度策略,直接在训练中移除某些滤波器(Filter),更利于硬件加速 。
-
消除冗余连接: 发现 SLaK 的双分支结构存在冗余,SW 将其合并并标准化 Padding 值,显著减少了参数量 。
-
重参数化 (Reparameterization): 引入重参数化技术(Rep),在训练时使用多分支,推理时合并,以此弥补参数减少带来的精度损失 。
-
Ghost 瘦身策略 (Slimming): 借鉴 GhostNet,引入比例因子 G,只有部分通道参与"大核模拟"计算,其余通道直接传递,进一步降低参数量 。
-
增强特征利用率 (Enhance Utilization): 发现简单的 Shift 操作会导致特征覆盖率低。作者引入了 无序偏移(Disordered Offset)和增加通道重排的边数(Edges),打破了特征组合的可预测性,提高了特征图的利用率。
-
架构优化: 最终采用了类似 UniRepLKNet 的网络深度配置,并确认了"加深网络比加宽网络更有效" 。
3. 实验结果 (Results)
论文在多个主流视觉任务上与 SOTA 模型进行了对比,SW 模型展现了卓越的性能。
3.1 ImageNet-1K 图像分类
SW 模型在参数量和 FLOPs 相当的情况下,优于现有的 Transformer 和大核 CNN:
-
SW-tiny (83.4%) 优于 UniRepLKNet-T (83.2%) 和 SLaK-T (82.5%) 。
-
SW-small (83.9%) 优于 UniRepLKNet-S (83.9%, 同分但在其他任务更强) 和 ConvNeXt-S (83.1%) 。
-
这也证明了 3×3 卷积可以取代大卷积核实现同等甚至更好的效果。
3.2 下游任务
-
COCO 目标检测: SW-tiny (AP 52.2) 和 SW-small (AP 52.7) 均超过了 UniRepLKNet、SLaK 和 Swin Transformer 。
-
ADE20K 语义分割: SW-small 达到了 50.83 mIoU (MS),优于 UniRepLKNet-S (50.5) 和 SLaK-S (49.6) 。
-
nuScenes 3D 目标检测: 在单目 3D 检测任务中,SW-small 取得了 31.42 mAP,略优于 UniRepLKNet-S 。
4. 深入分析 (Analysis)
作者通过分析训练后的模型参数,得出了一些有趣的结论:
-
稀疏度随深度增加: 网络越深,被剪枝的滤波器越多(稀疏度越高)。这表明网络的深层更多是在进行信息传输(Transmission),而非复杂的特征变换。
-
数据驱动的卷积结构: 与 PeLK 等人工设计卷积核形状的方法不同,SW 通过数据驱动的方式(剪枝)自动发现了大核卷积的空间结构 。
5. 结论 (Conclusion)
-
核心贡献: 提出了一种通过解耦(特征提取 + 多路融合)来替代大卷积核的新范式。
-
意义: 证明了在现代 CNN 架构中,大卷积核并不是必须的 。通过 ShiftwiseConv,使用标准 3**×3**卷积即可达到甚至超越大核模型的性能,同时保持了高效性。这与 VGG 时代的"堆叠小核替代大核"的理念在现代架构下产生了共鸣 。