RNN中的梯度消失与梯度爆炸问题

梯度消失与梯度爆炸问题

循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络.在循环神经网络中,神经元不但可以接受其他神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。

在RNN中,梯度计算时需要沿时间步反向传播(BPTT,Backpropagation Through Time),这个算法即按照时间的逆序将梯度信息一步步地往前传递.当输入序列比较长时了,时间步展开导致的长链乘积会存在梯度爆炸和消失问题,也称为长程依赖问题。

上图是一个简单的循环神经网络,只有一个隐藏层的神经网络,𝒉_𝑡不仅和当前时刻的输入𝒙_𝑡 相关,也和上一个时刻的隐藏层状态𝒉_{𝑡−1} 相关

分析步骤

分析:

1、使用了一个4层的前馈神经网络来模拟展开的RNN。

2、若激活函数是Sigmoid,求梯度的最大值是0.25,可能会导致梯度消失问题,这时候网络就学习不到东西了,即无法更新梯度。

3、若权重设置过大了,可能出现梯度爆炸问题,梯度变成NaN。

注:最后等式括号中根据不同的激活函数有不同的导数。

相关推荐
Dfreedom.23 分钟前
正则化全面解析:从过拟合防治到模型优化之道
深度学习·神经网络·机器学习·正则化·过拟合
lxmyzzs26 分钟前
【图像算法 - 36】医疗应用:基于 YOLOv12 与 OpenCV 的高精度脑肿瘤检测系统实现
python·深度学习·opencv·yolo·计算机视觉·脑肿瘤检测
方知我36 分钟前
【GoogLeNet】基本原理
人工智能·pytorch·深度学习·神经网络·cnn
克里普crirp1 小时前
安装GPU版本的pytorch
人工智能·pytorch·深度学习
小毅&Nora1 小时前
【人工智能】【深度学习】 ③ DDPM核心算法介绍:从噪声到图像的魔法
人工智能·深度学习·算法
Mr.Winter`1 小时前
深度强化学习 | 基于PPO算法的移动机器人路径跟踪(附Pytorch实现)
人工智能·pytorch·深度学习·机器学习·机器人·自动驾驶·ros
智元视界1 小时前
从深度学习到自主学习:AI的下一个技术跃迁
大数据·人工智能·深度学习·学习·架构·数字化转型·产业升级
月疯1 小时前
unet网络的理解
网络·人工智能·深度学习
大写-凌祁1 小时前
大模型强化学习(LLM-RL)最前沿综述:从 DPO 到 System 2 推理与后训练扩展
人工智能·深度学习·机器学习·计算机视觉·agi
西猫雷婶1 小时前
CNN卷积计算|多维卷积核
深度学习·神经网络·cnn