ShiftwiseConv: Small Convolutional Kernel with Large Kernel Effect

论文下载地址:https://arxiv.org/abs/2401.12736

论文代码地址:https://github.com/lidc54/shift-wiseConv

该论文提出了一种新的纯卷积算子 ShiftwiseConv (SW)使用标准的小卷积核(如3×3)可以通过巧妙的设计替代大卷积核(如 51×51),并实现更优的性能


1. 核心背景与动机 (Motivation)

  • 大核 CNN 的复兴与瓶颈: 受到 Vision Transformer (ViT) 长距离建模能力的启发,近期 CNN 模型(如 RepLKNet, SLaK, UniRepLKNet)通过增大卷积核尺寸(从 7**×** 7 到 51**×**51 甚至更大)重新超越了 ViT 。

  • 边际效应递减: 研究发现,单纯增大核尺寸带来的性能提升会出现"边际效应递减"甚至停滞,且计算成本高昂。

  • 生物学灵感(视网膜): 作者受人类视网膜结构启发。视网膜通过感光细胞(提取基本信号)与神经节细胞之间的多通路连接来处理信息,而不是靠单一的巨大感受野细胞 。

  • 核心思想(解耦): 论文提出将大核卷积的关键因素解耦为两个独立部分:

    1. 特征提取: 在特定粒度上提取基本信息(由小卷积核负责)。

    2. 特征融合: 通过多通路建立长距离依赖关系(由 Shift 操作负责)。


2. 方法论:Shiftwise (SW) Conv 架构设计

作者并没有直接设计一个全新的模块,而是通过一系列渐进式的替代实验 ,从 SOTA 模型 SLaK 演化出了 SW 模块 。

2.1 核心机制:Shift 操作 (Shift Operation)

SW 模块利用标准的 3\\times3 卷积,配合 Shift(位移) 操作来模拟大核的效果:

  • 空间堆叠替代大核: 不同于传统的大核滑动窗口,SW 通过对特征图进行不同方向和步长的位移(Shift),使得后续的 3**×**3 卷积能够"看到"原本距离很远的像素,从而在数学上等效或近似于大核的感受野 。

  • 分组卷积与重排: 使用分组卷积(Group Conv)生成特征,然后根据序列号对输出特征进行适当的偏移,使其与大核卷积的输出位置对齐。

2.2 演进过程与关键技术点

为了优化性能并减少参数,作者进行了一系列改进:

  1. 粗粒度剪枝 (Coarse-grained Pruning): 不同于 SLaK 的细粒度稀疏化,SW 采用粗粒度策略,直接在训练中移除某些滤波器(Filter),更利于硬件加速 。

  2. 消除冗余连接: 发现 SLaK 的双分支结构存在冗余,SW 将其合并并标准化 Padding 值,显著减少了参数量 。

  3. 重参数化 (Reparameterization): 引入重参数化技术(Rep),在训练时使用多分支,推理时合并,以此弥补参数减少带来的精度损失 。

  4. Ghost 瘦身策略 (Slimming): 借鉴 GhostNet,引入比例因子 G,只有部分通道参与"大核模拟"计算,其余通道直接传递,进一步降低参数量 。

  5. 增强特征利用率 (Enhance Utilization): 发现简单的 Shift 操作会导致特征覆盖率低。作者引入了 无序偏移(Disordered Offset)和增加通道重排的边数(Edges),打破了特征组合的可预测性,提高了特征图的利用率。

  6. 架构优化: 最终采用了类似 UniRepLKNet 的网络深度配置,并确认了"加深网络比加宽网络更有效" 。


3. 实验结果 (Results)

论文在多个主流视觉任务上与 SOTA 模型进行了对比,SW 模型展现了卓越的性能。

3.1 ImageNet-1K 图像分类

SW 模型在参数量和 FLOPs 相当的情况下,优于现有的 Transformer 和大核 CNN:

  • SW-tiny (83.4%) 优于 UniRepLKNet-T (83.2%) 和 SLaK-T (82.5%) 。

  • SW-small (83.9%) 优于 UniRepLKNet-S (83.9%, 同分但在其他任务更强) 和 ConvNeXt-S (83.1%) 。

  • 这也证明了 3×3 卷积可以取代大卷积核实现同等甚至更好的效果。

3.2 下游任务
  • COCO 目标检测: SW-tiny (AP 52.2) 和 SW-small (AP 52.7) 均超过了 UniRepLKNet、SLaK 和 Swin Transformer 。

  • ADE20K 语义分割: SW-small 达到了 50.83 mIoU (MS),优于 UniRepLKNet-S (50.5) 和 SLaK-S (49.6) 。

  • nuScenes 3D 目标检测: 在单目 3D 检测任务中,SW-small 取得了 31.42 mAP,略优于 UniRepLKNet-S 。


4. 深入分析 (Analysis)

作者通过分析训练后的模型参数,得出了一些有趣的结论:

  • 稀疏度随深度增加: 网络越深,被剪枝的滤波器越多(稀疏度越高)。这表明网络的深层更多是在进行信息传输(Transmission),而非复杂的特征变换。

  • 数据驱动的卷积结构: 与 PeLK 等人工设计卷积核形状的方法不同,SW 通过数据驱动的方式(剪枝)自动发现了大核卷积的空间结构 。


5. 结论 (Conclusion)

  • 核心贡献: 提出了一种通过解耦(特征提取 + 多路融合)来替代大卷积核的新范式。

  • 意义: 证明了在现代 CNN 架构中,大卷积核并不是必须的 。通过 ShiftwiseConv,使用标准 3**×3**卷积即可达到甚至超越大核模型的性能,同时保持了高效性。这与 VGG 时代的"堆叠小核替代大核"的理念在现代架构下产生了共鸣 。

相关推荐
周名彥5 小时前
二十四芒星非硅基华夏原生AGI模型集群·全球发布声明(S∅-Omega级·纯念主权版)
人工智能·去中心化·知识图谱·量子计算·agi
周名彥5 小时前
1Ω1[特殊字符]⊗雙朕周名彥實際物理載體|二十四芒星物理集群载体群:超級數據中心·AGI·IPO·GUI·智能體工作流
人工智能·神经网络·知识图谱·量子计算·agi
Leinwin5 小时前
Microsoft 365 Copilot:更“懂你”的AI助手
人工智能·microsoft·copilot
后端小肥肠5 小时前
从图文到视频,如何用Coze跑通“小红书儿童绘本”的商业闭环?
人工智能·aigc·coze
飞睿科技5 小时前
ESP Audio Effects音频库迎来专业升级,v1.2.0 新增动态控制核心
人工智能·物联网·ffmpeg·智能家居·语音识别·乐鑫科技·esp
reddingtons5 小时前
PS 参考图像:线稿上色太慢?AI 3秒“喂”出精细厚涂
前端·人工智能·游戏·ui·aigc·游戏策划·游戏美术
西格电力科技5 小时前
光伏四可“可观”功能:光伏电站全景数字化的底层支撑技术
大数据·人工智能·架构·能源
VertGrow AI销冠5 小时前
2025年高口碑Ai获客系统软件TOP3推荐榜单
人工智能
再__努力1点5 小时前
【68】颜色直方图详解与Python实现
开发语言·图像处理·人工智能·python·算法·计算机视觉