论文阅读 Deep Residual Learning for Image Recognition

作者：Kaiming He Xiangyu Zhang Shaoqing Ren Jian Sun

机构：Microsoft Research

来源期刊： IEEE Conference on Computer Vision and Pattern Recognition(CVPR)

发表时间：2016年

一、研究目标、方法与创新点

1. 研究目标

本文重在解决深度神经网络中的"退化问题"（degradation problem）：随着网络深度增加，训练误差和测试误差不降反升，这并非过拟合导致，而是由于优化困难。作者提出一种深度残差学习框架，使网络能够轻松训练极深模型（如152层），并在多个视觉任务上取得突破性性能。

2. 过去方法及其局限

传统深度网络（如VGG、GoogLeNet）通过堆叠卷积层提升性能，但超过一定深度后会出现梯度消失或者爆炸问题。

虽然批量归一化（Batch Normalization） 和合理的初始化缓解了梯度问题，但深度增加仍会导致训练误差上升，也就是文章提到的"退化现象"。

此前也有使用**快捷连接（shortcut connections）**的方法（如Highway Networks），但依赖带参数的门控机制，并未在极深网络中表现出明显优势。

3. 本文方法

提出残差学习框架，将堆叠的层拟合为残差函数：

F(x)=H(x)−x

则原始映射变为：

H(x)=F(x)+x

通过恒等快捷连接将输入直接加到输出上，使网络更容易学习微小扰动，而非完整的映射

快捷链接的优势：

1.拟合小的残差网络可以更好的优化权重。

2.可以在一定程度上避免梯度消失问题。

3.提升训练的稳定性。

4. 优势与创新点

1.解决退化问题：即使网络很深，也能通过残差块轻松训练。

2.无额外参数：恒等快捷连接不增加参数或计算量。

3.极深网络可行：成功训练152层网络，在ImageNet上取得当时最佳性能。

4.通用性强：在分类、检测、分割等多个任务上均取得显著提升。

5.提出瓶颈结构：使用1×1卷积降低维度，减少计算量，使千层网络训练成为可能。

二、算法主要思想与原理

1. 残差学习基本思想

假设我们希望网络学习一个映射 H(x)H(x)，直接学习可能困难。我们改为学习残差：

F(x) = H(x)−x

则原始映射可表示为：

H(x) = F(x)+x

如果恒等映射是最优的，那么将残差推向零比直接拟合恒等映射更容易。

2. 残差块结构

提出的残差块

若输入输出维度相同，直接使用恒等连接。
若维度不同，使用1×1卷积进行投影。

3.文中专业术语

退化问题：网络加深后训练误差上升的现象。
恒等快捷连接：将输入直接传递到输出，不经过任何变换。
瓶颈结构：使用1×3×1卷积组合，先降维再升维，减少计算量。
批量归一化：对每层输入进行归一化，加速训练并缓解梯度问题。

三、实验结果

1. 数据集

ImageNet 2012：128万训练图像，5万验证图像，1000类。

CIFAR-10：5万训练图像，1万测试图像，10类。

PASCAL VOC & MS COCO：用于目标检测与分割任务。

2. 评价指标

分类任务：Top-1错误率、Top-5错误率。

Top-1 Error Rate:模型预测的第一位类别与真实标签不匹配的比例。换句话说，如果模型的第一个预测类别就是正确的类别，那么它就是正确预测；否则，它就是错误的。

Top-5 Error Rate:模型预测的前五个类别中没有正确类别的比例。也就是说，如果模型的前五个预测类别中有一个类别与真实标签匹配，那么该预测就被认为是正确的。如果前五个类别中都没有正确类别，那么就是错误的。

检测任务：mAP（mean Average Precision）。

COCO任务：mAP@ $0.5:0.95$ 。

3. 定量实验

ImageNet分类结果

ResNet-152 取得 19.38% Top-1错误率，优于所有先前模型。
集成模型在测试集上达到 3.57% Top-5错误率，获ILSVRC 2015分类任务冠军。

CIFAR-10实验

ResNet-110 取得 6.43% 错误率，优于同类深层模型。
训练1202层网络仍能收敛，证明优化无障碍。

目标检测结果

在COCO数据集上，ResNet-101比VGG-16提升 28% 相对性能。

4. 定性分析

训练曲线对比：深层残差网络训练误差始终低于普通网络。
响应分析：残差网络各层响应标准差较小，说明其学习的是小扰动。
深度效应：残差网络随深度增加性能持续提升，普通网络则出现退化。

四、结论

本文提出的深度残差学习框架成功解决了极深神经网络的训练难题，通过引入恒等快捷连接和残差映射，使网络能够轻松训练上百甚至上千层。该方法不仅显著提升了ImageNet分类性能，也在检测、分割等多个视觉任务上取得突破，成为后续深度网络设计的基础架构之一。残差学习的核心思想------学习残差而非完整映射------已被广泛证明是一种高效且通用的深度学习策略。