ShiftwiseConv: Small Convolutional Kernel with Large Kernel Effect

论文下载地址:https://arxiv.org/abs/2401.12736

论文代码地址:https://github.com/lidc54/shift-wiseConv

该论文提出了一种新的纯卷积算子 ShiftwiseConv (SW)使用标准的小卷积核(如3×3)可以通过巧妙的设计替代大卷积核(如 51×51),并实现更优的性能


1. 核心背景与动机 (Motivation)

  • 大核 CNN 的复兴与瓶颈: 受到 Vision Transformer (ViT) 长距离建模能力的启发,近期 CNN 模型(如 RepLKNet, SLaK, UniRepLKNet)通过增大卷积核尺寸(从 7**×** 7 到 51**×**51 甚至更大)重新超越了 ViT 。

  • 边际效应递减: 研究发现,单纯增大核尺寸带来的性能提升会出现"边际效应递减"甚至停滞,且计算成本高昂。

  • 生物学灵感(视网膜): 作者受人类视网膜结构启发。视网膜通过感光细胞(提取基本信号)与神经节细胞之间的多通路连接来处理信息,而不是靠单一的巨大感受野细胞 。

  • 核心思想(解耦): 论文提出将大核卷积的关键因素解耦为两个独立部分:

    1. 特征提取: 在特定粒度上提取基本信息(由小卷积核负责)。

    2. 特征融合: 通过多通路建立长距离依赖关系(由 Shift 操作负责)。


2. 方法论:Shiftwise (SW) Conv 架构设计

作者并没有直接设计一个全新的模块,而是通过一系列渐进式的替代实验 ,从 SOTA 模型 SLaK 演化出了 SW 模块 。

2.1 核心机制:Shift 操作 (Shift Operation)

SW 模块利用标准的 3\\times3 卷积,配合 Shift(位移) 操作来模拟大核的效果:

  • 空间堆叠替代大核: 不同于传统的大核滑动窗口,SW 通过对特征图进行不同方向和步长的位移(Shift),使得后续的 3**×**3 卷积能够"看到"原本距离很远的像素,从而在数学上等效或近似于大核的感受野 。

  • 分组卷积与重排: 使用分组卷积(Group Conv)生成特征,然后根据序列号对输出特征进行适当的偏移,使其与大核卷积的输出位置对齐。

2.2 演进过程与关键技术点

为了优化性能并减少参数,作者进行了一系列改进:

  1. 粗粒度剪枝 (Coarse-grained Pruning): 不同于 SLaK 的细粒度稀疏化,SW 采用粗粒度策略,直接在训练中移除某些滤波器(Filter),更利于硬件加速 。

  2. 消除冗余连接: 发现 SLaK 的双分支结构存在冗余,SW 将其合并并标准化 Padding 值,显著减少了参数量 。

  3. 重参数化 (Reparameterization): 引入重参数化技术(Rep),在训练时使用多分支,推理时合并,以此弥补参数减少带来的精度损失 。

  4. Ghost 瘦身策略 (Slimming): 借鉴 GhostNet,引入比例因子 G,只有部分通道参与"大核模拟"计算,其余通道直接传递,进一步降低参数量 。

  5. 增强特征利用率 (Enhance Utilization): 发现简单的 Shift 操作会导致特征覆盖率低。作者引入了 无序偏移(Disordered Offset)和增加通道重排的边数(Edges),打破了特征组合的可预测性,提高了特征图的利用率。

  6. 架构优化: 最终采用了类似 UniRepLKNet 的网络深度配置,并确认了"加深网络比加宽网络更有效" 。


3. 实验结果 (Results)

论文在多个主流视觉任务上与 SOTA 模型进行了对比,SW 模型展现了卓越的性能。

3.1 ImageNet-1K 图像分类

SW 模型在参数量和 FLOPs 相当的情况下,优于现有的 Transformer 和大核 CNN:

  • SW-tiny (83.4%) 优于 UniRepLKNet-T (83.2%) 和 SLaK-T (82.5%) 。

  • SW-small (83.9%) 优于 UniRepLKNet-S (83.9%, 同分但在其他任务更强) 和 ConvNeXt-S (83.1%) 。

  • 这也证明了 3×3 卷积可以取代大卷积核实现同等甚至更好的效果。

3.2 下游任务
  • COCO 目标检测: SW-tiny (AP 52.2) 和 SW-small (AP 52.7) 均超过了 UniRepLKNet、SLaK 和 Swin Transformer 。

  • ADE20K 语义分割: SW-small 达到了 50.83 mIoU (MS),优于 UniRepLKNet-S (50.5) 和 SLaK-S (49.6) 。

  • nuScenes 3D 目标检测: 在单目 3D 检测任务中,SW-small 取得了 31.42 mAP,略优于 UniRepLKNet-S 。


4. 深入分析 (Analysis)

作者通过分析训练后的模型参数,得出了一些有趣的结论:

  • 稀疏度随深度增加: 网络越深,被剪枝的滤波器越多(稀疏度越高)。这表明网络的深层更多是在进行信息传输(Transmission),而非复杂的特征变换。

  • 数据驱动的卷积结构: 与 PeLK 等人工设计卷积核形状的方法不同,SW 通过数据驱动的方式(剪枝)自动发现了大核卷积的空间结构 。


5. 结论 (Conclusion)

  • 核心贡献: 提出了一种通过解耦(特征提取 + 多路融合)来替代大卷积核的新范式。

  • 意义: 证明了在现代 CNN 架构中,大卷积核并不是必须的 。通过 ShiftwiseConv,使用标准 3**×3**卷积即可达到甚至超越大核模型的性能,同时保持了高效性。这与 VGG 时代的"堆叠小核替代大核"的理念在现代架构下产生了共鸣 。

相关推荐
那个村的李富贵2 小时前
光影魔术师:CANN加速实时图像风格迁移,让每张照片秒变大师画作
人工智能·aigc·cann
腾讯云开发者3 小时前
“痛点”到“通点”!一份让 AI 真正落地产生真金白银的实战指南
人工智能
CareyWYR3 小时前
每周AI论文速递(260202-260206)
人工智能
hopsky4 小时前
大模型生成PPT的技术原理
人工智能
禁默5 小时前
打通 AI 与信号处理的“任督二脉”:Ascend SIP Boost 加速库深度实战
人工智能·信号处理·cann
心疼你的一切5 小时前
昇腾CANN实战落地:从智慧城市到AIGC,解锁五大行业AI应用的算力密码
数据仓库·人工智能·深度学习·aigc·智慧城市·cann
AI绘画哇哒哒5 小时前
【干货收藏】深度解析AI Agent框架:设计原理+主流选型+项目实操,一站式学习指南
人工智能·学习·ai·程序员·大模型·产品经理·转行
数据分析能量站5 小时前
Clawdbot(现名Moltbot)-现状分析
人工智能
那个村的李富贵5 小时前
CANN加速下的AIGC“即时翻译”:AI语音克隆与实时变声实战
人工智能·算法·aigc·cann
二十雨辰5 小时前
[python]-AI大模型
开发语言·人工智能·python