梯度消失与梯度爆炸

在深度神经网络训练过程的反向传播,梯度逐渐变得非常小或非常大。

导致这个现象的主要原因是激活函数和权重初始化不对

(1)梯度消失:在sigmoid函数与Tanh函数中,靠近输出层的的梯度比较大,在反向传播中,随着层数增加,梯度不断乘以小于1的数,越靠近输出层梯度越小

解决:1使用ReLU及其变种,即更换激活函数,activation='relu'

2使用合适的权重初始化,kernel_initializer='he_normal'

3使用Batch Normalization(即标准化规范化处理,让数据分布更加合理), tf.keras.layers.BatchNormalization()

4使用残差连接的神经网络,x = Add()([x, conv(x)])

场景 :一个10层的全连接网络,每层使用 sigmoid 激活函数,权重初始化为标准正态分布(均值为0,方差为1)。
现象:sigmoid函数的导数最大值为0.25。反向传播时,靠近输出层的梯度(如第10层)数值较大,但每向前传播一层,梯度就要乘一次该层的导数(≤0.25)以及权重矩阵。经过多层后,靠近输入层(如第1层)的梯度变得极小(如 0.2510≈9.5×10−70.2510≈9.5×10−7 再乘以权重),几乎为零。导致前几层参数几乎无法更新,网络训练停滞。

(2)梯度爆炸:在反向传播中,梯度不断增大,甚至非常大。通常出现在权重初始化时就比较大,导致训练过程中梯度膨胀

解决:1使用适当优化算法更新梯度,

2将梯度限制到一个合理范围

3权重的初始化采用 Xavier初始化,此外还可以对权重进行L2正则化

场景 :一个5层的循环神经网络(RNN),使用 tanh 激活函数,权重初始化为较大的值(如均值为0,方差为10的高斯分布)。
现象:tanh导数最大为1,但权重矩阵元素值较大(如10)。反向传播时,每传播一层梯度乘以权重矩阵(范数>1),梯度会指数级增长。例如第5层梯度为1,第4层梯度约为 10×1=1010×1=10,第3层梯度约为 10×10=10010×10=100,......,第1层梯度高达 104104。导致参数更新步长过大,损失值变成NaN,模型发散。

相关推荐
查无此人byebye2 小时前
硬核深度解析:KimiDeltaAttention 源码逐行精读+公式推导+复杂度优化(完整可运行)
人工智能·深度学习·神经网络·自然语言处理
丰海洋2 小时前
Transformer参数量
人工智能·深度学习·transformer
chools2 小时前
Java后端拥抱AI开发之个人学习路线 - - Spring AI【第三期】(向量数据库 + RAG检索增强生成)
java·人工智能·学习·spring·ai
tianbaolc2 小时前
Claude Code 源码剖析 模块一 · 第一节:Claude Code 宏观架构
人工智能·ai·架构·claude code
温九味闻醉2 小时前
人工智能应用作业1:PPO强化学习算法
人工智能·算法
安科士andxe2 小时前
实践指南|安科士SFP-10/25G-LR-S-I光模块部署与运维技巧
运维·人工智能·5g
AI360labs_atyun2 小时前
我在命令行里养了只电子宠物,还顺便学会了Claude Code
人工智能·科技·学习·ai·宠物
dydm_131282 小时前
笔尖下的奇迹:当AI实时绘画“撞见”未来教育
人工智能
CanCanCanedFish2 小时前
快速解决OpenCode配置第三方API
人工智能·ai