长短期记忆网络LSTM

视频链接

1.LSTM与RNN的区别

RNN想把所有信息都记住,不管是有用的信息还是没用的信息,并且有梯度爆炸或者梯度消失的问题

而LSTM设计了一个记忆细胞,具备选择记忆功能,可以选择记忆重要信息,过滤掉噪声信息,减轻记忆负担。

2. 前向传播的过程

2.1对比RNN

2.2 单元结构

符号解释:
C t − 1 C_{t-1} Ct−1表示t-1时刻的记忆细胞
h t − 1 h_{t-1} ht−1表示t-1时刻的隐藏层状态
s i g m o i d sigmoid sigmoid门单元
f t f_t ft遗忘门
i t i_t it更新门
o t o_t ot输出门
在LSTM的每个时间步里面,都有一个记忆cell,这个东西给予了LSTM选择记忆功能,使得LSTM有能力自由选择每个时间步里面记忆的内容

2.3 结合例子理解LSTM单元结构

场景:期末考试周(高数→线性代数)

输入 X t X_t Xt:线性代数

输出 h t h_t ht:高分

遗忘门:遗忘高数积累的记忆 C t − 1 C_{t-1} Ct−1

更新门:选择性的提取有用的线性代数知识,然后结合高数保留下来的数学运算能力

输出门:把没考的知识丢掉
t a n h tanh tanh:把记忆的知识 C t C_t Ct转为答题解题的能力

4. LSTM如何缓解梯度消失

4.1 RNN梯度消失回顾

4.2LSTM反向传播

假设: t = 3 t=3 t=3,即从左到右的输出分别是 y 1 y_1 y1、 y 2 y_2 y2、 y 3 y_3 y3







相关推荐
終不似少年遊*1 分钟前
【从基础到模型网络】深度学习-语义分割-基础
网络·人工智能·深度学习·语义分割·卷积·上采样
卡戎-caryon3 分钟前
【Linux网络与网络编程】12.NAT技术&&内网穿透&&代理服务
linux·运维·服务器·网络·网络协议·https
我的老子姓彭5 分钟前
LWIP的Socket接口
运维·服务器·网络
随缘。。。。35 分钟前
服务端HttpServletRequest、HttpServletResponse、HttpSession
网络·网络协议·http
Johny_Zhao2 小时前
AI+自动化测试系统方案:网络设备与网络应用智能测试
linux·网络·人工智能·python·网络安全·docker·ai·信息安全·云计算·ansible·shell·cisco·huawei·系统运维·itsm·华三·deepseek
Blossom.1185 小时前
基于区块链技术的供应链溯源系统:重塑信任与透明度
服务器·网络·人工智能·目标检测·机器学习·计算机视觉·区块链
冷崖5 小时前
网络编程-select(二)
网络·学习
AORO_BEIDOU6 小时前
遨游科普:三防平板是什么?有什么功能?
网络·5g·安全·智能手机·电脑·信息与通信
比奥利奥还傲.7 小时前
如何利用内网穿透实现Cursor对私有化部署大模型的跨网络访问实践
网络
tyatyatya7 小时前
MATLAB中进行深度学习网络训练的模型评估步骤
网络·深度学习·matlab