长短期记忆网络LSTM

视频链接

1.LSTM与RNN的区别

RNN想把所有信息都记住,不管是有用的信息还是没用的信息,并且有梯度爆炸或者梯度消失的问题

而LSTM设计了一个记忆细胞,具备选择记忆功能,可以选择记忆重要信息,过滤掉噪声信息,减轻记忆负担。

2. 前向传播的过程

2.1对比RNN

2.2 单元结构

符号解释:
C t − 1 C_{t-1} Ct−1表示t-1时刻的记忆细胞
h t − 1 h_{t-1} ht−1表示t-1时刻的隐藏层状态
s i g m o i d sigmoid sigmoid门单元
f t f_t ft遗忘门
i t i_t it更新门
o t o_t ot输出门
在LSTM的每个时间步里面,都有一个记忆cell,这个东西给予了LSTM选择记忆功能,使得LSTM有能力自由选择每个时间步里面记忆的内容

2.3 结合例子理解LSTM单元结构

场景:期末考试周(高数→线性代数)

输入 X t X_t Xt:线性代数

输出 h t h_t ht:高分

遗忘门:遗忘高数积累的记忆 C t − 1 C_{t-1} Ct−1

更新门:选择性的提取有用的线性代数知识,然后结合高数保留下来的数学运算能力

输出门:把没考的知识丢掉
t a n h tanh tanh:把记忆的知识 C t C_t Ct转为答题解题的能力

4. LSTM如何缓解梯度消失

4.1 RNN梯度消失回顾

4.2LSTM反向传播

假设: t = 3 t=3 t=3,即从左到右的输出分别是 y 1 y_1 y1、 y 2 y_2 y2、 y 3 y_3 y3







相关推荐
百度搜知知学社19 小时前
LockMyPix高级版|军事级加密守护你的私密数据
网络·移动安全·数据加密·隐私保护·安全软件
BAGAE20 小时前
星链卫星数据获取:从太空安全到实时通信的技术革命
网络·数据结构·数据库·算法·云计算·hbase
手握风云-20 小时前
ProtoBuf:从序列化原理到高性能架构底座(一)
java·网络·架构
caimouse20 小时前
Reactos 第 9 章 设备驱动 — 9.6 中断处理
网络·windows
2301_7644413320 小时前
番茄钟+AI:高效专注的秘密武器
人工智能·算法·数学建模·动态规划·交互
qq36219670521 小时前
第三方安卓应用商店安全评测 2026:Appteka、Aptoide、APKPure 等 7 家横评
android·网络·人工智能·安全·chatgpt·智能手机
AI科技星21 小时前
数术工坊・八卷全书【本源创世终极版・万世定稿】
开发语言·网络·量子计算·拓扑学
AI科技星21 小时前
数术工坊・八卷全书(番外・实战升华副卷)【终极典藏定稿|完整无删减】
c语言·开发语言·网络·量子计算·agi
DreamLife☼21 小时前
OpenBCI-脑电信号的隐私与安全保护
网络·安全·开源硬件·脑机接口·eeg·openbci·神经科技
yyuuuzz21 小时前
云服务器软件部署的几个常见问题
运维·服务器·开发语言·网络·云计算·php·apache