ResNeXt: 通过聚合残差变换增强深度神经网络

在计算机视觉领域，网络架构设计正经历从手工特征工程向自动特征学习的范式转变。传统卷积神经网络（如VGG、ResNet）通过堆叠相同拓扑结构的模块来构建深度网络，但这种单一维度的扩展方式逐渐显现出局限性。我们注意到，Inception系列网络通过split-transform-merge策略获得了显著性能提升，但其复杂的多分支设计存在参数调整困难、泛化能力受限等问题。

我们提出了一种新颖的深度神经网络架构 ResNeXt ，通过引入基数（Cardinality） 这一新维度，结合残差学习与多分支变换策略，显著提升了模型的表示能力。ResNeXt不仅继承了ResNet的简洁性和可扩展性，还融合了Inception模块的split-transform-merge思想，在保持计算复杂度的同时，实现了更高的分类准确率。以下将详细阐述我们的方法及其核心创新。

1. 核心思想与动机

传统的深度神经网络设计主要围绕深度和宽度两个维度展开。然而，我们发现增加基数（即同一层内并行变换路径的数量）能更高效地提升模型性能。这一设计灵感来源于以下观察：

ResNet的局限性：ResNet通过残差连接缓解了深层网络的优化难题，但其单一路径的变换限制了特征的多样性。
Inception的启发：Inception模块通过多分支不同尺度的卷积操作捕获多粒度特征，但复杂的定制化设计难以扩展。
Split-Transform-Merge策略：将输入特征拆分为多个低维嵌入，分别进行变换后聚合，可显著增强特征的表达能力。

基于此，我们提出了 聚合残差变换Aggregated Residual Transformations ，将多个相同拓扑结构的变换路径（基数）集成到残差块中，形成统一的模块化设计：

2. ResNeXt的核心架构

2.1 模板化设计规则

我们遵循VGG/ResNet的模块重复原则 ，所有残差块共享相同拓扑结构，并遵循两条核心规则：

空间尺寸相同的层共享超参数（如卷积核尺寸、宽度）。

下采样时宽度翻倍：每次空间尺寸减半（如从56×56到28×28），通道数增加一倍以平衡计算量。

这一规则确保了网络的计算复杂度均匀分布 ，同时极大简化了超参数调整，如下是ResNet-50与ResNeXt-50架构对比：

Stage	ResNet-50	ResNeXt-50 (32×4d)
conv2	[1×1, 64] → 3×3, 64 → [1×1, 256] (重复3次)	[1×1, 128] → 分组卷积（32组） → [1×1, 256] (重复3次)
参数量	25.5M	25.0M
FLOPs	4.1×10⁹	4.2×10⁹

（注：分组卷积的分组数等于基数C=32，后文将详细解释。）

2.2 残差块的重新设计

原始ResNet残差块（图左）

传统的残差块由三个卷积层构成：1×1降维 → 3×3卷积 → 1×1升维。例如，输入256通道经过1×1卷积降维至64通道，再通过3×3卷积，最后升维回256通道。

ResNeXt残差块（图右）

我们引入基数C ，将单一变换路径扩展为C条并行路径，每条路径执行相同的操作：

拆分（Split） ：输入特征通过1×1卷积映射到低维空间（如4通道）。

变换（Transform） ：对每个低维嵌入执行3×3卷积。

聚合（Merge） ：将所有路径的输出按通道相加，再通过1×1卷积恢复维度。

2.3 基数的等效实现形式

ResNeXt的聚合变换可通过三种等效形式实现（如图所示）：

独立路径相加（图a） ：每条路径独立计算后相加，直观但实现复杂。

早期拼接（图b） ：将低维变换后的特征在通道维度拼接，再通过1×1卷积融合。此形式与Inception-ResNet模块相似，但所有路径共享相同拓扑。

分组卷积（图c） ：利用分组卷积（Grouped Convolution）隐式实现多路径拆分。例如，输入128通道通过32组4通道的3×3卷积，等效于32条独立路径的聚合。

分组卷积的优势：

实现更高效，无需显式管理多分支。
兼容现有深度学习框架（如PyTorch、TensorFlow）。

2.4 基数与宽度的权衡

为公平比较不同基数对模型性能的影响，我们固定模型的参数量和计算量（FLOPs），通过调整瓶颈宽度来平衡基数C的增加如下表基数与瓶颈宽度的关系（固定复杂度）：

基数C	1	2	4	8	32
瓶颈宽度d	64	40	24	14	4
分组卷积宽度	64	80	96	112	128

实验表明，当C=32、d=4时，模型在ImageNet-1K上的分类误差较ResNet-50降低1.7%（从23.9%降至22.2%），验证了基数提升的有效性。

3. 实验结果与验证

3.1 ImageNet-1K分类任务

基数优于深度/宽度：ResNeXt-101（32×4d）在相同复杂度下，分类误差较ResNet-101降低0.8%（从22.0%至21.2%）。

扩展基数提升显著：将基数从32增至64（参数量翻倍），ResNeXt-101的Top-1误差进一步降至20.4%，优于ResNet-200（21.7%）和更宽的ResNet变体（21.3%）。

ImageNet-1K分类误差对比：

模型	Top-1误差 (%)
ResNet-50	23.9
ResNeXt-50 (32×4d)	22.2
ResNet-101	22.0
ResNeXt-101 (32×4d)	21.2

3.2 跨任务泛化能力

目标检测（COCO） ：ResNeXt-50在Faster R-CNN框架下，AP@0.5提升2.1%（47.6% → 49.7%）。

小数据集（CIFAR） ：ResNeXt-29（16×64d）在CIFAR-10上达到3.58%的测试误差，优于Wide ResNet。

4. 总结与展望

基数作为新维度：首次将基数与深度、宽度并列，为网络设计提供新方向。

模块化与可扩展性：所有残差块共享相同拓扑，避免了Inception的定制化复杂性。

高效实现：通过分组卷积实现多路径聚合，兼顾性能与效率。

在COCO目标检测任务中：

Faster R-CNN框架下，ResNeXt-50较ResNet-50绝对提升2.1% AP@0.5
后续工作（如Mask R-CNN）验证了本架构在实例分割任务的优越性

本方法为视觉识别任务提供了新的基础架构范式，其简单的模块化设计、可扩展的基数维度、高效的实现方式，使其在保持ResNet易用性的同时，达到了超越Inception系列模型的性能。相关代码和预训练模型已开源，推动了后续研究和工业应用的快速发展。