循环神经网络中的梯度消失或梯度爆炸问题产生原因分析(二)

上一篇中讨论了一般性的原则,这里我们具体讨论通过时间反向传播(backpropagation through time,BPTT)的细节。我们将展示目标函数对于所有模型参数的梯度计算方法。

出于简单的目的,我们以一个没有偏置参数的循环神经网络,其在隐藏层中的激活函数使用恒等函数()。

对于时间步,单个样本的输入及其标签分别为。计算隐状态和输出的公式为

其中,权重参数为

目标函数为:

通常,训练这个模型需要对这些参数分别进行梯度计算:

其中:

中可以看到,这个简单的线性例子已经展现出长序列模型的一些关键问题:

它陷入到了的潜在的非常大的指数幂。在这个指数幂中,小于1的特征值将会消失(出现梯度消失 ),大于1的特征值将会发散(出现梯度爆炸)。

相关推荐
551只玄猫14 分钟前
KNN算法基础 机器学习基础1 python人工智能
人工智能·python·算法·机器学习·机器学习算法·knn·knn算法
qq_3751679838 分钟前
No module named ‘mmcv._ext‘
人工智能·计算机视觉
JoengGaap39 分钟前
智能体学习(定义、框架、简单实现搭建)
人工智能
love530love1 小时前
Windows 11 下再次成功本地编译 Flash-Attention 2.8.3 并生成自定义 Wheel(RTX 3090 sm_86 专属版)
人工智能·windows·笔记·编译·flash_attn·flash-attn·flash-attention
模型启动机1 小时前
港大联合字节跳动提出JoVA:一种基于联合自注意力的视频-音频联合生成模型
人工智能·ai·大模型
无心水1 小时前
【神经风格迁移:全链路压测】29、AI服务压测实战:构建全链路压测体系与高并发JMeter脚本设计
人工智能·高并发·混沌工程·全链路压测·ai镜像开发·ai镜像·神经风格
怪我冷i1 小时前
Zed编辑器安装与使用Agent Servers(腾讯CodeBuddy、阿里百炼Qwen Code、DeepSeek Cli)
人工智能·编辑器·ai编程·ai写作·zed
AI_Auto2 小时前
智能制造-AI质检六大场景
人工智能·制造
特立独行的猫a2 小时前
AI工具推荐:Google 神秘武器 CodeWiki ---上古项目的终极克星
人工智能