理解LSTM

如何从RNN起步,一步一步通俗理解LSTM
Understanding LSTM Networks
LSTM-from-scratch-in-Pytorch
LSTM Neural Network from Scratch
Implementing a LSTM from scratch with Numpy

这张图就是最常见的LSTM结构图,但是隐藏了很多细节。下面这张图是一个LSTM模块的细节放大图:

图中:

  • 绿色的是长期记忆 long-term memory;

  • 玫瑰红色?的是短期记忆 short term memory;

  • 灰色的线是当前的输入x;

  • 每个蓝色的方框代表sigmoid函数,输出值在 0 到 1 之间,作为权重,控制信息的流动;

  • 每个橘色的方框代表tanh函数,输出值在 -1 到 1 之间,更好的编码信息,并且保持数据的中心化;

  • 第一个浅蓝色的虚线框,代表记忆门或遗忘门 ,一体两面,都是一回事,给重要的需要记忆的高权重,给不重要的需要忘记的低权重。用来计算长期记忆中如何向下一步传递信息。公式中x是当前输入,h是短期记忆,c是长期记忆。

  • 第二个浅绿色的虚线框,是输入门 ,是当前要加入到长期记忆中的信息的权重,

  • 第三个浅黄色虚线框,是当前需要加入到长期记忆中的信息,包括短期记忆和当前输入,和权重相乘后加入到长期记忆中。

  • 第四个浅紫色的虚线框,是输出门 ,是当前处理过的长期记忆(update long-term memory)中要输出的信息的权重。

  • 第五个浅红色虚线框,是当前处理过的长期记忆(update long-term memory)经过tanh激活后,变为当前潜在要输出的短期记忆,乘以前一个输出的权重,得到新的短期记忆输出。

一个完整的计算过程 ,pytorch中的LSTM函数。

总结:

  1. 长期记忆要经过记忆门(乘以权重),决定要传播的信息;
  2. 短期记忆以及当前输入,要经过激活,再经过输入门(乘以权重),决定要加入到长期记忆中传播的信息;
  3. 经过了前两步的长期记忆,经过激活,再经过输出门(乘以权重),得到最终的短期记忆输出;
  4. 每个门,也就是权重,输入都包括短期记忆和当前输入两部分,使用sigmoid函数激活;
  5. 每个加入的信息,使用tanh函数激活。
python 复制代码
import torch
import torch.nn as nn

rnn = nn.LSTM(input_size=10, hidden_size=20, num_layers=2)
#默认batch_first=False,所以输入是(length,batch_size,input_size)
input = torch.randn(5, 3, 10)
#短期记忆,(num_layers,batch_size,hidden_size)
h0 = torch.randn(2, 3, 20)
#长期记忆,(num_layers,batch_size,hidden_size)
c0 = torch.randn(2, 3, 20)
output, (hn, cn) = rnn(input, (h0, c0))
#输出,(length,batch_size,hidden_size)
output.shape
#torch.Size([5, 3, 20])
相关推荐
爱打球的白师傅12 分钟前
python机器学习工程化demo(包含训练模型,预测数据,模型列表,模型详情,删除模型)支持线性回归、逻辑回归、决策树、SVC、随机森林等模型
人工智能·python·深度学习·机器学习·flask·逻辑回归·线性回归
烟袅21 分钟前
Trae 推出 Solo 模式:AI 开发的“一人一项目”时代来了?
前端·人工智能·solo
元宇宙时间36 分钟前
AI赋能的$AIOT:打造Web3全周期智能生态的价值核心
人工智能·web3
瑞禧生物ruixibio37 分钟前
Biotin-Oridonin B,生物素标记冬凌草乙素,可用于蛋白质修饰、药物靶标研究
人工智能
MediaTea40 分钟前
Python 第三方库:TensorFlow(深度学习框架)
开发语言·人工智能·python·深度学习·tensorflow
GIS好难学1 小时前
【智慧城市】2025年华中农业大学暑期实训优秀作品(2):基于Vue框架和Java后端开发
人工智能·智慧城市
Joker-Tong1 小时前
大模型数据洞察能力方法调研
人工智能·python·agent
哔哩哔哩技术1 小时前
VisionWeaver:从“现象识别”到“病因诊断”,开启AI视觉幻觉研究新篇章
人工智能
道可云1 小时前
AI赋能:农业场景培育如何支撑乡村全面振兴
人工智能
极客代码1 小时前
第七篇:深度学习SLAM——端到端的革命--从深度特征到神经辐射场的建图新范式
人工智能·python·深度学习·计算机视觉·slam·回环检测·地图构建