循环神经网络中的梯度消失或梯度爆炸问题产生原因分析(二)

上一篇中讨论了一般性的原则,这里我们具体讨论通过时间反向传播(backpropagation through time,BPTT)的细节。我们将展示目标函数对于所有模型参数的梯度计算方法。

出于简单的目的,我们以一个没有偏置参数的循环神经网络,其在隐藏层中的激活函数使用恒等函数()。

对于时间步,单个样本的输入及其标签分别为。计算隐状态和输出的公式为

其中,权重参数为

目标函数为:

通常,训练这个模型需要对这些参数分别进行梯度计算:

其中:

中可以看到,这个简单的线性例子已经展现出长序列模型的一些关键问题:

它陷入到了的潜在的非常大的指数幂。在这个指数幂中,小于1的特征值将会消失(出现梯度消失 ),大于1的特征值将会发散(出现梯度爆炸)。

相关推荐
啥也不行就是菜10 分钟前
【AI助手】从零构建文章抓取器 MCP(Node.js 版)
人工智能·mcp·trae
亚里随笔13 分钟前
ReSpec:突破RL训练瓶颈的推测解码优化系统
人工智能·深度学习·自然语言处理·大语言模型·rlhf
腾讯云开发者43 分钟前
对话香港城市大学张泽松:AI时代教育“变天”?先抓核心能力|TVP专访
人工智能
岁月宁静1 小时前
图像生成接口的工程化设计与落地实践:封装豆包图像生成模型 Seedream 4.0 API
前端·人工智能·node.js
万岳科技程序员小金1 小时前
多商户商城APP源码开发的未来方向:云原生、电商中台与智能客服
人工智能·云原生·开源·软件开发·app开发·多商户商城系统源码·多商户商城app开发
蓝色 - Lanse1 小时前
模型推理如何利用非前缀缓存
人工智能·缓存
CoookeCola1 小时前
MovieNet (paper) :推动电影理解研究的综合数据集与基准
数据库·论文阅读·人工智能·计算机视觉·视觉检测·database
CoovallyAIHub1 小时前
视觉语言模型(VLM)深度解析:如何用它来处理文档?
深度学习·算法·计算机视觉
火星资讯2 小时前
多形态机器人协同发力优艾智合引领核电运维智能化升级
人工智能
qq_420362032 小时前
AI在前端工作中的应用
前端·人工智能·sse