RNN中的梯度消失与梯度爆炸问题

梯度消失与梯度爆炸问题

循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络.在循环神经网络中,神经元不但可以接受其他神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。

在RNN中,梯度计算时需要沿时间步反向传播(BPTT,Backpropagation Through Time),这个算法即按照时间的逆序将梯度信息一步步地往前传递.当输入序列比较长时了,时间步展开导致的长链乘积会存在梯度爆炸和消失问题,也称为长程依赖问题。

上图是一个简单的循环神经网络,只有一个隐藏层的神经网络,𝒉_𝑡不仅和当前时刻的输入𝒙_𝑡 相关,也和上一个时刻的隐藏层状态𝒉_{𝑡−1} 相关

分析步骤

分析:

1、使用了一个4层的前馈神经网络来模拟展开的RNN。

2、若激活函数是Sigmoid,求梯度的最大值是0.25,可能会导致梯度消失问题,这时候网络就学习不到东西了,即无法更新梯度。

3、若权重设置过大了,可能出现梯度爆炸问题,梯度变成NaN。

注:最后等式括号中根据不同的激活函数有不同的导数。

相关推荐
dazzle36 分钟前
机器学习算法原理与实践-入门(七):深度学习框架PyTorch的Tensor
深度学习·算法·机器学习
Flying pigs~~1 小时前
BERT及其变体、GPT、ELMo
人工智能·深度学习·自然语言处理·大模型·bert·文本分析处理
枫叶林FYL1 小时前
【自然语言处理 NLP】深度学习与表示学习
人工智能·深度学习·机器学习
北顾笙9801 小时前
深度学习day05
人工智能·深度学习
乐分启航1 小时前
【无标题】
深度学习·算法·目标检测·transformer·迁移学习
金融小师妹2 小时前
基于AI多因子模型的黄金价格分析:9连跌后的反弹与约束机制解析
大数据·深度学习·svn·能源
卡梅德生物科技小能手2 小时前
CD252(LTβR):信号通路机制、药物研发进展及技术挑战
经验分享·深度学习·生活
Chockong2 小时前
00_最小神经网络训练流程
人工智能·深度学习·神经网络
清空mega2 小时前
李沐《动手学深度学习》——模型初始化和激活函数
人工智能·深度学习
zbdx不知名菜鸡3 小时前
langchain与langgraph 有什么区别?
人工智能·深度学习·langchain·langgraph