【动手学深度学习】7.6. 残差网络（ResNet）（个人向笔记）

1. ResNet精读论文视频的Introduction部分

深度卷积神经网络好，好在可以叠加很多层，每一层都可以提取不一样的特征
但是网络特别深的时候，梯度要么爆炸要么消失，我们能做的就是将参数随机初始化做好，或者是在中间加一些 batch normalization。在使用了这些方法后，深度卷积神经网络得以收敛
但是收敛后的深度变深会导致性能变差。但是这不是由于过拟合引起的，这就意味着你的网络看似是收敛了，丹斯其实没有得到很好的训练
于是论文提出，对于一个效果好的浅网络，如果再加一些层让它变深，它的效果是不应该变差的。虽然理论上存在一些比较优的解，但是SGD找不出来
这篇文章提出可以显示地构造一个优解（identity mapping），使得深层的不会比浅层更差
我们假设原来的要学习的是 H(x)，这里构造一个 F(x) = H(x) - x，这表示我们对于前面学过的 x（这里的 x 是上一层网络的输出），我们不需要再重新去学习它了，所以把它减掉。因此我们在这里学习到的是残差，最后输出再把 x 加回来
这个方法很好，没有增加参数，即增加复习复杂度。也没有增加计算复杂度，因为只是一个加法，而且网络也是可训练的。它可以做到网络越深，效果越好

原文有定义，我们在这里直接引用：我们对网络的叠加很可能是非嵌套函数类。对于深度神经网络，如果我们能将新添加的层训练成恒等映射（identity function） f ( x ) = x f(x) = x f(x)=x，新模型和原模型将同样有效。同时，由于新模型可能得出更优的解来拟合训练数据集，因此添加层似乎更容易降低训练误差。
针对这一问题，何恺明等人提出了残差网络（ResNet）。

和论文 introcution 部分介绍的内容差不多：
ResNet沿用了VGG完整的 3 × 3 3×3 3×3 卷积层设计。残差块里首先有 2 个相同输出通道数的 3 × 3 3\times3 3×3 卷积层。每个卷积层后接一个BN层和ReLU。然后我么通过跨层数据通路，跳过这两个卷积运算，将输入直接加在最后的 ReLU 激活函数前。这样的设计要求两个卷积层的输出于输入形状一样，从而使得它们可以相加。而如果想要改变通道数就需要引入一个额外的 1 × 1 1×1 1×1 卷积层来将输入变换成需要的形状后再做相加运算