循环神经网络中的梯度消失或梯度爆炸问题产生原因分析(二)

上一篇中讨论了一般性的原则,这里我们具体讨论通过时间反向传播(backpropagation through time,BPTT)的细节。我们将展示目标函数对于所有模型参数的梯度计算方法。

出于简单的目的,我们以一个没有偏置参数的循环神经网络,其在隐藏层中的激活函数使用恒等函数()。

对于时间步,单个样本的输入及其标签分别为。计算隐状态和输出的公式为

其中,权重参数为

目标函数为:

通常,训练这个模型需要对这些参数分别进行梯度计算:

其中:

中可以看到,这个简单的线性例子已经展现出长序列模型的一些关键问题:

它陷入到了的潜在的非常大的指数幂。在这个指数幂中,小于1的特征值将会消失(出现梯度消失 ),大于1的特征值将会发散(出现梯度爆炸)。

相关推荐
索迪迈科技5 分钟前
INDEMIND亮相2025科技创变者大会,以机器人空间智能技术解锁具身智能新边界
人工智能·机器人·扫地机器人·空间智能·陪伴机器人
栒U17 分钟前
一文从零部署vLLM+qwen0.5b(mac本地版,不可以实操GPU单元)
人工智能·macos·vllm
沫儿笙38 分钟前
FANUC发那科焊接机器人铝材焊接节气
人工智能·机器人
THMAIL1 小时前
量化股票从贫穷到财务自由之路 - 零基础搭建Python量化环境:Anaconda、Jupyter实战指南
linux·人工智能·python·深度学习·机器学习·金融
~-~%%1 小时前
从PyTorch到ONNX:模型部署性能提升
人工智能·pytorch·python
xcnn_1 小时前
深度学习基础概念回顾(Pytorch架构)
人工智能·pytorch·深度学习
attitude.x1 小时前
PyTorch 动态图的灵活性与实用技巧
前端·人工智能·深度学习
骥龙2 小时前
XX汽集团数字化转型:全生命周期网络安全、数据合规与AI工业物联网融合实践
人工智能·物联网·web安全
zskj_qcxjqr2 小时前
告别传统繁琐!七彩喜艾灸机器人:一键开启智能养生新时代
大数据·人工智能·科技·机器人
Ven%2 小时前
第一章 神经网络的复习
人工智能·深度学习·神经网络