深度学习-梯度消失和梯度爆炸

世润2025-05-31 2:33

梯度消失

在某些神经网络中，随着网络深度的增加，梯度在隐藏层反向传播时倾向于变小，这就意味着，前面隐藏层中的神经元要比后面的学习起来更慢，这种现象就叫做"梯度消失"；

如果我们进行一些特殊的调整（比如初始权重很大），可以让梯度反向传播时不会明显减小，从而解决梯度消失的问题；然而这样一来，前面层的梯度又会变得非常大，引起网络不稳定，无法再从训练数据中学习，这种现象又叫做"梯度爆炸"。

为了让深度神经网络的学习更加稳定、高效，我们需要考虑进一步改进寻找最优参数的方法，以及如何设置参数初始值、如何设定超参数；此外还应该解决过拟合的问题。