论文精读ResNet: Deep Residual Learning for Image Recognition

EEPI2023-09-24 0:05

1 基础背景

知乎讲解：ResNet论文笔记及代码剖析

对于深度神经网络来说，深度对于模型性能至关重要。网络层数越深：

（1）越容易导致梯度消失或梯度爆炸 gradient vanishing/exploding；

（2）越容易出现性能恶化degradation：准确率达到峰值后迅速下降。

把输入直接加到输出上，即shortcut connection。残差网络的意思是输出-输入的那部分网络模型。

对于神经网络来说，它对于相同映射identity mapping之外的扰动更容易学习，而不是identity mapping本身。相同映射就是【输入=输出】。

如果输入输出维度不同，可以采用zero-padding补零/projection映射，将其维度改变。

shortcut connection没有引入新的参数，也没有额外增加计算复杂度。

在ImageNet中，不shortcut connection的网络（论文中叫plain network）34层的训练误差高于18层的，而残差版的34层低于18层。

验证误差同样很小，说明泛化能力较强。

残差网络初期收敛更快，最终收敛效果更好。

对于层数非常深（>50）的网络，可以采用瓶颈bottleneck模型，使用卷积将其维度先降低，提取关键特征，再升高，这样可以有效降低算力需求，由此可以诞生101层，152层的网络，其算力需求仍低于VGG。（具体为什么是101/152，作者并没有说明，李沐分析可能是调试调出来）

projection引入了新的参数，不适用于瓶颈模型，使用identity mapping更好。

将模型输出中最大概率的结果作为最终分类结果，计算得到的错误率，该指标衡量了模型的准确程度，同理还有top5 error；