吴恩达深度学习笔记：卷积神经网络（Foundations of Convolutional Neural Networks）2.3-2.4

[第四门课卷积神经网络（Convolutional Neural Networks）](#第四门课卷积神经网络（Convolutional Neural Networks）)
- [第二周深度卷积网络：实例探究（Deep convolutional models: case studies）](#第二周深度卷积网络：实例探究（Deep convolutional models: case studies）)
- - [2.3 残差网络(ResNets)(Residual Networks (ResNets))](#2.3 残差网络(ResNets)(Residual Networks (ResNets)))
  - [2.4 残差网络为什么有用？（Why ResNets work?）](#2.4 残差网络为什么有用？（Why ResNets work?）)

第四门课卷积神经网络（Convolutional Neural Networks）

第二周深度卷积网络：实例探究（Deep convolutional models: case studies）

2.3 残差网络(ResNets)(Residual Networks (ResNets))

非常非常深的神经网络是很难训练的，因为存在梯度消失和梯度爆炸问题。这节课我们学习跳跃连接（Skip connection），它可以从某一层网络层获取激活，然后迅速反馈给另外一层，甚至是神经网络的更深层。我们可以利用跳跃连接构建能够训练深度网络的 ResNets，有时深度能够超过 100 层，让我们开始吧。ResNets 是由残差块（Residual block）构建的，首先我解释一下什么是残差块。

这是一个两层神经网络，在𝐿层进行激活，得到 a [ l + 1 ] a^{[l+1]} a[l+1]，再次进行激活，两层之后得到 a [ l + 2 ] a^{[l+2]} a[l+2]。计算过程是从 a [ l ] a^{[l]} a[l]开始，首先进行线性激活，根据这个公式： z [ l + 1 ] = W [ l + 1 ] a [ l ] + b [ l + 1 ] z^{[l+1]} = W^{[l+1]}a^{[l]} + b^{[l+1]} z[l+1]=W[l+1]a[l]+b[l+1]，通过a[l]算出 z [ l + 1 ] z^{[l+1]} z[l+1]，即a[l]乘以权重矩阵，再加上偏差因子。然后通过 ReLU 非线性激活函数得到 a [ l + 1 ] a^{[l+1]} a[l+1] ， a [ l + 1 ] = g ( z [ l + 1 ] ) a^{[l+1]} = g(z^{[l+1]}) a[l+1]=g(z[l+1]) 计算得出。接着再次进行线性激活，依据等式 z [ l + 2 ] = W [ 2 + 1 ] a [ l + 1 ] + b [ l + 2 ] z^{[l+2]} =W^{[2+1]}a^{[l+1]} + b^{[l+2]} z[l+2]=W[2+1]a[l+1]+b[l+2]，最后根据这个等式再次进行 ReLu 非线性激活，即 a [ l + 2 ] = g ( z [ l + 2 ] ) a^{[l+2]} = g(z^{[l+2]}) a[l+2]=g(z[l+2])，这里的𝑔是指 ReLU 非线性函数，得到的结果就是 a [ l + 2 ] a^{[l+2]} a[l+2]。换句话说，信息流从 a [ l ] a^{[l]} a[l]到 a [ l + 2 ] a^{[l+2]} a[l+2]需要经过以上所有步骤，即这组网络层的主路径。

在残差网络中有一点变化，我们将𝑎[𝑙]直接向后，拷贝到神经网络的深层，在 ReLU 非线性激活函数前加上𝑎[𝑙]，这是一条捷径。𝑎

吴恩达深度学习笔记：卷积神经网络（Foundations of Convolutional Neural Networks）2.3-2.4

目录

第四门课 卷积神经网络（Convolutional Neural Networks）

第二周 深度卷积网络：实例探究（Deep convolutional models: case studies）

2.3 残差网络(ResNets)(Residual Networks (ResNets))

第四门课卷积神经网络（Convolutional Neural Networks）

第二周深度卷积网络：实例探究（Deep convolutional models: case studies）