ShiftwiseConv: Small Convolutional Kernel with Large Kernel Effect

论文下载地址:https://arxiv.org/abs/2401.12736

论文代码地址:https://github.com/lidc54/shift-wiseConv

该论文提出了一种新的纯卷积算子 ShiftwiseConv (SW)使用标准的小卷积核(如3×3)可以通过巧妙的设计替代大卷积核(如 51×51),并实现更优的性能


1. 核心背景与动机 (Motivation)

  • 大核 CNN 的复兴与瓶颈: 受到 Vision Transformer (ViT) 长距离建模能力的启发,近期 CNN 模型(如 RepLKNet, SLaK, UniRepLKNet)通过增大卷积核尺寸(从 7**×** 7 到 51**×**51 甚至更大)重新超越了 ViT 。

  • 边际效应递减: 研究发现,单纯增大核尺寸带来的性能提升会出现"边际效应递减"甚至停滞,且计算成本高昂。

  • 生物学灵感(视网膜): 作者受人类视网膜结构启发。视网膜通过感光细胞(提取基本信号)与神经节细胞之间的多通路连接来处理信息,而不是靠单一的巨大感受野细胞 。

  • 核心思想(解耦): 论文提出将大核卷积的关键因素解耦为两个独立部分:

    1. 特征提取: 在特定粒度上提取基本信息(由小卷积核负责)。

    2. 特征融合: 通过多通路建立长距离依赖关系(由 Shift 操作负责)。


2. 方法论:Shiftwise (SW) Conv 架构设计

作者并没有直接设计一个全新的模块,而是通过一系列渐进式的替代实验 ,从 SOTA 模型 SLaK 演化出了 SW 模块 。

2.1 核心机制:Shift 操作 (Shift Operation)

SW 模块利用标准的 3\\times3 卷积,配合 Shift(位移) 操作来模拟大核的效果:

  • 空间堆叠替代大核: 不同于传统的大核滑动窗口,SW 通过对特征图进行不同方向和步长的位移(Shift),使得后续的 3**×**3 卷积能够"看到"原本距离很远的像素,从而在数学上等效或近似于大核的感受野 。

  • 分组卷积与重排: 使用分组卷积(Group Conv)生成特征,然后根据序列号对输出特征进行适当的偏移,使其与大核卷积的输出位置对齐。

2.2 演进过程与关键技术点

为了优化性能并减少参数,作者进行了一系列改进:

  1. 粗粒度剪枝 (Coarse-grained Pruning): 不同于 SLaK 的细粒度稀疏化,SW 采用粗粒度策略,直接在训练中移除某些滤波器(Filter),更利于硬件加速 。

  2. 消除冗余连接: 发现 SLaK 的双分支结构存在冗余,SW 将其合并并标准化 Padding 值,显著减少了参数量 。

  3. 重参数化 (Reparameterization): 引入重参数化技术(Rep),在训练时使用多分支,推理时合并,以此弥补参数减少带来的精度损失 。

  4. Ghost 瘦身策略 (Slimming): 借鉴 GhostNet,引入比例因子 G,只有部分通道参与"大核模拟"计算,其余通道直接传递,进一步降低参数量 。

  5. 增强特征利用率 (Enhance Utilization): 发现简单的 Shift 操作会导致特征覆盖率低。作者引入了 无序偏移(Disordered Offset)和增加通道重排的边数(Edges),打破了特征组合的可预测性,提高了特征图的利用率。

  6. 架构优化: 最终采用了类似 UniRepLKNet 的网络深度配置,并确认了"加深网络比加宽网络更有效" 。


3. 实验结果 (Results)

论文在多个主流视觉任务上与 SOTA 模型进行了对比,SW 模型展现了卓越的性能。

3.1 ImageNet-1K 图像分类

SW 模型在参数量和 FLOPs 相当的情况下,优于现有的 Transformer 和大核 CNN:

  • SW-tiny (83.4%) 优于 UniRepLKNet-T (83.2%) 和 SLaK-T (82.5%) 。

  • SW-small (83.9%) 优于 UniRepLKNet-S (83.9%, 同分但在其他任务更强) 和 ConvNeXt-S (83.1%) 。

  • 这也证明了 3×3 卷积可以取代大卷积核实现同等甚至更好的效果。

3.2 下游任务
  • COCO 目标检测: SW-tiny (AP 52.2) 和 SW-small (AP 52.7) 均超过了 UniRepLKNet、SLaK 和 Swin Transformer 。

  • ADE20K 语义分割: SW-small 达到了 50.83 mIoU (MS),优于 UniRepLKNet-S (50.5) 和 SLaK-S (49.6) 。

  • nuScenes 3D 目标检测: 在单目 3D 检测任务中,SW-small 取得了 31.42 mAP,略优于 UniRepLKNet-S 。


4. 深入分析 (Analysis)

作者通过分析训练后的模型参数,得出了一些有趣的结论:

  • 稀疏度随深度增加: 网络越深,被剪枝的滤波器越多(稀疏度越高)。这表明网络的深层更多是在进行信息传输(Transmission),而非复杂的特征变换。

  • 数据驱动的卷积结构: 与 PeLK 等人工设计卷积核形状的方法不同,SW 通过数据驱动的方式(剪枝)自动发现了大核卷积的空间结构 。


5. 结论 (Conclusion)

  • 核心贡献: 提出了一种通过解耦(特征提取 + 多路融合)来替代大卷积核的新范式。

  • 意义: 证明了在现代 CNN 架构中,大卷积核并不是必须的 。通过 ShiftwiseConv,使用标准 3**×3**卷积即可达到甚至超越大核模型的性能,同时保持了高效性。这与 VGG 时代的"堆叠小核替代大核"的理念在现代架构下产生了共鸣 。

相关推荐
YuTaoShao12 小时前
【Prompt】Prompt 工程入门指南
人工智能·llm·prompt·提示词
玖日大大12 小时前
Qoder 全维度解析:AI 驱动的下一代编程生产力工具
人工智能
2301_8002561112 小时前
【数据库pgsql】车辆轨迹分析视图的创建和查询代码解析
人工智能·算法·机器学习
小宇的天下12 小时前
innovus Flip chip 产品设计方法(2)
人工智能
熊猫钓鱼>_>12 小时前
AI 加 CloudBase 帮我从零快速打造儿童英语故事学习乐园
ide·人工智能·ai·mcp·codebuddy·cloudbase·ai toolkit
QYZL_AIGC12 小时前
全域众链AI赋能实体,开启数字化转型新生态
大数据·人工智能
SCKJAI12 小时前
推出高效能机器人边缘人工智能(AI)平台 ARC6N0 T5X
大数据·人工智能
新加坡内哥谈技术12 小时前
软件工程未来两年
人工智能
_爱明12 小时前
评估回归模型的指标与理解
人工智能·数据挖掘·回归
小途软件12 小时前
基于深度学习的驾驶人情绪识别
java·人工智能·pytorch·python·深度学习·语言模型