循环神经网络中的梯度消失或梯度爆炸问题产生原因分析(二)

上一篇中讨论了一般性的原则,这里我们具体讨论通过时间反向传播(backpropagation through time,BPTT)的细节。我们将展示目标函数对于所有模型参数的梯度计算方法。

出于简单的目的,我们以一个没有偏置参数的循环神经网络,其在隐藏层中的激活函数使用恒等函数()。

对于时间步,单个样本的输入及其标签分别为。计算隐状态和输出的公式为

其中,权重参数为

目标函数为:

通常,训练这个模型需要对这些参数分别进行梯度计算:

其中:

中可以看到,这个简单的线性例子已经展现出长序列模型的一些关键问题:

它陷入到了的潜在的非常大的指数幂。在这个指数幂中,小于1的特征值将会消失(出现梯度消失 ),大于1的特征值将会发散(出现梯度爆炸)。

相关推荐
Listennnn几秒前
AI系统的构建
人工智能·系统架构
新智元4 分钟前
全球 30 名顶尖数学家秘密集会围剿 AI,当场破防!惊呼已接近数学天才
人工智能·openai
楽码8 分钟前
AI决策树:整理繁杂问题的简单方法
人工智能·后端·openai
星辰大海的精灵13 分钟前
基于Dify+MCP实现通过微信发送天气信息给好友
人工智能·后端·python
ReturnOfMars14 分钟前
AI本地批量生图Agent-Jaaz体验,确实强
人工智能
柠檬味拥抱15 分钟前
人工智能在教育中的角色-AI Agent助力个性化学习与学生辅导
人工智能
只有左边一个小酒窝17 分钟前
(六)卷积神经网络:深度学习在计算机视觉中的应用
深度学习·计算机视觉·cnn
精灵vector18 分钟前
Agent短期记忆的几种持久化存储方式
人工智能·python
大模型之路23 分钟前
基于本地LLM与MCP架构构建AI智能体全指南
人工智能·架构
大霸王龙31 分钟前
系统模块与功能设计框架
人工智能·wpf