循环神经网络中的梯度消失或梯度爆炸问题产生原因分析（二）

xw5556662023-12-23 5:05

上一篇中讨论了一般性的原则，这里我们具体讨论通过时间反向传播（backpropagation through time，BPTT）的细节。我们将展示目标函数对于所有模型参数的梯度计算方法。

出于简单的目的，我们以一个没有偏置参数的循环神经网络，其在隐藏层中的激活函数使用恒等函数（）。

对于时间步，单个样本的输入及其标签分别为和。计算隐状态和输出的公式为

其中，权重参数为，和。

目标函数为：

。

通常，训练这个模型需要对这些参数分别进行梯度计算：、和。

其中：

从中可以看到，这个简单的线性例子已经展现出长序列模型的一些关键问题：

它陷入到了的潜在的非常大的指数幂。在这个指数幂中，小于1的特征值将会消失（出现梯度消失 ），大于1的特征值将会发散（出现梯度爆炸）。

上一篇：Bash 脚本学习

下一篇：【Maven-Helper】利用 Maven-Helper 解决依赖冲突问题

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04Window 10部署openclaw报错node.exe : npm error code 128 05本地部署 OpenClaw + DeepSeek-R1 完全指南 06OpenClaw优化飞书API 额度已耗尽问题 07OpenClaw 连接飞书完整指南：插件安装、配置与踩坑记录 08Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 09OpenClaw 飞书机器人不回复消息？3 小时踩坑总结 10小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）