ResNeXt: 通过聚合残差变换增强深度神经网络

在计算机视觉领域,网络架构设计正经历从手工特征工程向自动特征学习的范式转变。传统卷积神经网络(如VGG、ResNet)通过堆叠相同拓扑结构的模块来构建深度网络,但这种单一维度的扩展方式逐渐显现出局限性。我们注意到,Inception系列网络通过split-transform-merge策略获得了显著性能提升,但其复杂的多分支设计存在参数调整困难、泛化能力受限等问题。

我们提出了一种新颖的深度神经网络架构 ResNeXt ,通过引入基数(Cardinality) 这一新维度,结合残差学习与多分支变换策略,显著提升了模型的表示能力。ResNeXt不仅继承了ResNet的简洁性和可扩展性,还融合了Inception模块的split-transform-merge思想,在保持计算复杂度的同时,实现了更高的分类准确率。以下将详细阐述我们的方法及其核心创新。

1. 核心思想与动机

传统的深度神经网络设计主要围绕深度宽度 两个维度展开。然而,我们发现增加基数 (即同一层内并行变换路径的数量)能更高效地提升模型性能。这一设计灵感来源于以下观察:

  1. ResNet的局限性:ResNet通过残差连接缓解了深层网络的优化难题,但其单一路径的变换限制了特征的多样性。

  2. Inception的启发:Inception模块通过多分支不同尺度的卷积操作捕获多粒度特征,但复杂的定制化设计难以扩展。

  3. Split-Transform-Merge策略:将输入特征拆分为多个低维嵌入,分别进行变换后聚合,可显著增强特征的表达能力。

基于此,我们提出了 聚合残差变换Aggregated Residual Transformations ,将多个相同拓扑结构的变换路径(基数)集成到残差块中,形成统一的模块化设计:

2. ResNeXt的核心架构

2.1 模板化设计规则

我们遵循VGG/ResNet的模块重复原则 ,所有残差块共享相同拓扑结构,并遵循两条核心规则:

空间尺寸相同的层共享超参数(如卷积核尺寸、宽度)。

下采样时宽度翻倍:每次空间尺寸减半(如从56×56到28×28),通道数增加一倍以平衡计算量。

这一规则确保了网络的计算复杂度均匀分布 ,同时极大简化了超参数调整,如下是ResNet-50与ResNeXt-50架构对比:

Stage ResNet-50 ResNeXt-50 (32×4d)
conv2 [1×1, 64] → 3×3, 64 → [1×1, 256] (重复3次) [1×1, 128] → 分组卷积(32组) → [1×1, 256] (重复3次)
参数量 25.5M 25.0M
FLOPs 4.1×10⁹ 4.2×10⁹

(注:分组卷积的分组数等于基数C=32,后文将详细解释。)

2.2 残差块的重新设计

原始ResNet残差块(图左)

传统的残差块由三个卷积层构成:1×1降维 → 3×3卷积 → 1×1升维。例如,输入256通道经过1×1卷积降维至64通道,再通过3×3卷积,最后升维回256通道。

ResNeXt残差块(图右)

我们引入基数C ,将单一变换路径扩展为C条并行路径,每条路径执行相同的操作:

拆分(Split) :输入特征通过1×1卷积映射到低维空间(如4通道)。

变换(Transform) :对每个低维嵌入执行3×3卷积。

聚合(Merge) :将所有路径的输出按通道相加,再通过1×1卷积恢复维度。

2.3 基数的等效实现形式

ResNeXt的聚合变换可通过三种等效形式实现(如图所示):

独立路径相加(图a) :每条路径独立计算后相加,直观但实现复杂。

早期拼接(图b) :将低维变换后的特征在通道维度拼接,再通过1×1卷积融合。此形式与Inception-ResNet模块相似,但所有路径共享相同拓扑。

分组卷积(图c) :利用分组卷积(Grouped Convolution)隐式实现多路径拆分。例如,输入128通道通过32组4通道的3×3卷积,等效于32条独立路径的聚合。

分组卷积的优势

  • 实现更高效,无需显式管理多分支。

  • 兼容现有深度学习框架(如PyTorch、TensorFlow)。

2.4 基数与宽度的权衡

为公平比较不同基数对模型性能的影响,我们固定模型的参数量和计算量(FLOPs),通过调整 瓶颈宽度来平衡基数C的增加如下表基数与瓶颈宽度的关系(固定复杂度):

基数C 1 2 4 8 32
瓶颈宽度d 64 40 24 14 4
分组卷积宽度 64 80 96 112 128

实验表明,当C=32、d=4时,模型在ImageNet-1K上的分类误差较ResNet-50降低1.7%(从23.9%降至22.2%),验证了基数提升的有效性。

3. 实验结果与验证

3.1 ImageNet-1K分类任务

基数优于深度/宽度:ResNeXt-101(32×4d)在相同复杂度下,分类误差较ResNet-101降低0.8%(从22.0%至21.2%)。

扩展基数提升显著:将基数从32增至64(参数量翻倍),ResNeXt-101的Top-1误差进一步降至20.4%,优于ResNet-200(21.7%)和更宽的ResNet变体(21.3%)。

ImageNet-1K分类误差对比:

模型 Top-1误差 (%)
ResNet-50 23.9
ResNeXt-50 (32×4d) 22.2
ResNet-101 22.0
ResNeXt-101 (32×4d) 21.2

3.2 跨任务泛化能力

目标检测(COCO) :ResNeXt-50在Faster R-CNN框架下,[email protected]提升2.1%(47.6% → 49.7%)。

小数据集(CIFAR) :ResNeXt-29(16×64d)在CIFAR-10上达到3.58%的测试误差,优于Wide ResNet。

4. 总结与展望

基数作为新维度:首次将基数与深度、宽度并列,为网络设计提供新方向。

模块化与可扩展性:所有残差块共享相同拓扑,避免了Inception的定制化复杂性。

高效实现:通过分组卷积实现多路径聚合,兼顾性能与效率。

在COCO目标检测任务中:

  • Faster R-CNN框架下,ResNeXt-50较ResNet-50绝对提升2.1% [email protected]
  • 后续工作(如Mask R-CNN)验证了本架构在实例分割任务的优越性

本方法为视觉识别任务提供了新的基础架构范式,其简单的模块化设计、可扩展的基数维度、高效的实现方式,使其在保持ResNet易用性的同时,达到了超越Inception系列模型的性能。相关代码和预训练模型已开源,推动了后续研究和工业应用的快速发展。

相关推荐
yvestine6 分钟前
自然语言处理——文本表示
人工智能·python·算法·自然语言处理·文本表示
zzc92114 分钟前
MATLAB仿真生成无线通信网络拓扑推理数据集
开发语言·网络·数据库·人工智能·python·深度学习·matlab
点赋科技15 分钟前
沙市区举办资本市场赋能培训会 点赋科技分享智能消费新实践
大数据·人工智能
HeteroCat22 分钟前
一周年工作总结:做了一年的AI工作我都干了什么?
人工智能
GalaxyPokemon36 分钟前
LeetCode - 148. 排序链表
linux·算法·leetcode
YSGZJJ36 分钟前
股指期货技术分析与短线操作方法介绍
大数据·人工智能
Guheyunyi1 小时前
监测预警系统重塑隧道安全新范式
大数据·运维·人工智能·科技·安全
码码哈哈爱分享1 小时前
[特殊字符] Whisper 模型介绍(OpenAI 语音识别系统)
人工智能·whisper·语音识别
郄堃Deep Traffic1 小时前
机器学习+城市规划第十三期:XGBoost的地理加权改进,利用树模型实现更精准的地理加权回归
人工智能·机器学习·回归·城市规划