前馈神经网络 - 反向传播算法

梯度下降法需要计算损失函数对参数的偏导数，如果通过链式法则逐一对每个参数进行求偏导比较低效。在神经网络的训练中经常使用反向传播算法来高效地计算梯度。本文，我们来学习和理解反向传播算法。

一、为什么要用反向传播算法计算每一层的梯度？

梯度下降法需要计算损失函数对参数的偏导数，如果通过链式法则逐一对每个参数进行求偏导比较低效。因此在神经网络的训练中，经常使用反向传播算法来高效地计算梯度。

反向传播算法其实就是一种高效应用链式法则的方法。简单来说，虽然理论上可以对每个参数逐一利用链式法则求偏导，但在深层网络中直接这样做会导致大量重复计算和计算资源浪费。反向传播通过以下方式解决了这一问题：

重用中间计算结果

前馈神经网络是分层结构，每一层的计算结果在后续层都会被使用。反向传播利用这一点，从输出层开始逐层计算梯度，并将每一层计算得到的中间梯度存储下来，以便在计算前一层梯度时重复使用，从而避免重复计算相同的部分。
高效组织梯度计算

反向传播算法按照"从后向前"的顺序进行，通过递归地应用链式法则，将损失函数关于每一层输出的梯度逐层传递给前一层。这种方式类似于动态规划，能够在每一层只计算一次梯度，然后在整个网络中传播，极大地提高了效率。
向量化计算

反向传播可以利用矩阵运算和向量化操作，使得整个梯度计算过程可以并行化、批量化地处理，这在现代深度学习框架中非常重要，能够充分利用 GPU 等硬件加速。

虽然链式法则是梯度计算的理论基础，但在深度神经网络中逐个参数计算梯度会非常低效。反向传播算法通过分层传递和重用中间梯度，组织出一种高效、系统的方法来计算所有参数的梯度，从而使得整个网络训练在计算上变得可行和高效。

二、从数学角度需要搞清楚的几个关键公式

假设采用随机梯度下降进行神经网络参数学习，给定一个样本 (𝒙, 𝒚)，将其输入到神经网络模型中，得到网络输出为 𝒚̂。假设损失函数为 L(𝒚, 𝒚̂)，要进行参数学习就需要计算损失函数关于每个参数的导数。

这里我们先来回顾一下，前馈神经网络的数学表示：

首先根据第𝑙−1层神经元的活性值(Activation)𝒂(𝑙−1) 计算出第𝑙层神经元的净活性值(NetActivation)𝒛(𝑙)，然后经过一个激活函数得到第 𝑙 层神经元的活性值。

不失一般性，对第 𝑙 层中的参数 𝑾 (𝑙) 和 𝒃(𝑙) 计算偏导数。根据链式法则：

上面2个公式的第二项都是目标函数关于第 𝑙 层的神经元 𝒛(𝑙)的偏导数，称为误差项。请大家记住并理解这个概念，它很关键。

下面分别来计算这三个偏导数：

1、第一个偏导数：

2、第二个偏导数：

3、第三个偏导数：

表示第 𝑙 层神经元对最终损失的影响，也反映了最终损失对第 𝑙 层神经元的敏感程度，因此一般称为第 𝑙 层神经元的误差项，用 𝛿(𝑙) 来表示：

误差项𝛿(𝑙) 也间接反映了不同神经元对网络能力的贡献程度，从而比较好地解决了贡献度分配问题(Credit Assignment Problem，CAP)。

根据链式法则，第 𝑙 层的误差项为：

其中 ⊙ 是向量的 Hadamard 积运算符，表示每个元素相乘，这里注意区别于矩阵相乘。

从上面的公式可以看出，第 𝑙 层的误差项可以通过第 𝑙 + 1 层的误差项计算得到，这就是误差的反向传播(BackPropagation，BP)。反向传播算法的含义是: 第 𝑙 层的一个神经元的误差项(或敏感性)是所有与该神经元相连的第 𝑙 + 1 层的神经元的误差项的权重和。然后，再乘上该神经元激活函数的梯度（即导数）。