理解LSTM

如何从RNN起步,一步一步通俗理解LSTM
Understanding LSTM Networks
LSTM-from-scratch-in-Pytorch
LSTM Neural Network from Scratch
Implementing a LSTM from scratch with Numpy

这张图就是最常见的LSTM结构图,但是隐藏了很多细节。下面这张图是一个LSTM模块的细节放大图:

图中:

  • 绿色的是长期记忆 long-term memory;

  • 玫瑰红色?的是短期记忆 short term memory;

  • 灰色的线是当前的输入x;

  • 每个蓝色的方框代表sigmoid函数,输出值在 0 到 1 之间,作为权重,控制信息的流动;

  • 每个橘色的方框代表tanh函数,输出值在 -1 到 1 之间,更好的编码信息,并且保持数据的中心化;

  • 第一个浅蓝色的虚线框,代表记忆门或遗忘门 ,一体两面,都是一回事,给重要的需要记忆的高权重,给不重要的需要忘记的低权重。用来计算长期记忆中如何向下一步传递信息。公式中x是当前输入,h是短期记忆,c是长期记忆。

  • 第二个浅绿色的虚线框,是输入门 ,是当前要加入到长期记忆中的信息的权重,

  • 第三个浅黄色虚线框,是当前需要加入到长期记忆中的信息,包括短期记忆和当前输入,和权重相乘后加入到长期记忆中。

  • 第四个浅紫色的虚线框,是输出门 ,是当前处理过的长期记忆(update long-term memory)中要输出的信息的权重。

  • 第五个浅红色虚线框,是当前处理过的长期记忆(update long-term memory)经过tanh激活后,变为当前潜在要输出的短期记忆,乘以前一个输出的权重,得到新的短期记忆输出。

一个完整的计算过程 ,pytorch中的LSTM函数。

总结:

  1. 长期记忆要经过记忆门(乘以权重),决定要传播的信息;
  2. 短期记忆以及当前输入,要经过激活,再经过输入门(乘以权重),决定要加入到长期记忆中传播的信息;
  3. 经过了前两步的长期记忆,经过激活,再经过输出门(乘以权重),得到最终的短期记忆输出;
  4. 每个门,也就是权重,输入都包括短期记忆和当前输入两部分,使用sigmoid函数激活;
  5. 每个加入的信息,使用tanh函数激活。
python 复制代码
import torch
import torch.nn as nn

rnn = nn.LSTM(input_size=10, hidden_size=20, num_layers=2)
#默认batch_first=False,所以输入是(length,batch_size,input_size)
input = torch.randn(5, 3, 10)
#短期记忆,(num_layers,batch_size,hidden_size)
h0 = torch.randn(2, 3, 20)
#长期记忆,(num_layers,batch_size,hidden_size)
c0 = torch.randn(2, 3, 20)
output, (hn, cn) = rnn(input, (h0, c0))
#输出,(length,batch_size,hidden_size)
output.shape
#torch.Size([5, 3, 20])
相关推荐
Raink老师4 小时前
【AI面试临阵磨枪-70】Agent 系统如何做分布式调度、跨服务协作、故障恢复?
人工智能·面试·职场和发展
tedcloud1234 小时前
RTK部署教程:构建稳定的AI Workflow环境
服务器·javascript·人工智能·typescript·ocr
Raink老师4 小时前
【AI面试临阵磨枪-71】如何用 AI 优化推荐系统、内容审核、广告创意、搜索体验?
人工智能·面试·职场和发展
AI医影跨模态组学4 小时前
Biomarker Res(IF=11.5)安徽医科大学第一医院:基于机器学习的放射组学模型:子宫内膜癌患者的预后预测及机制探索
人工智能·深度学习·论文·医学·医学影像·影像组学
ftpeak4 小时前
Mooncake:以 KVCache 为中心的分离式 LLM 服务架构
人工智能·ai·架构·ai编程·ai开发
Terrence Shen4 小时前
Hermes agent的tools是怎么落地应用的系列
人工智能·llm·agent·hermes
Raink老师4 小时前
【AI面试临阵磨枪-72】电商全场景 AI Agent 设计(商品咨询 / 订单 / 物流 / 售后 / 退款)
人工智能·面试·职场和发展
仙女修炼史5 小时前
CNN更看重Texture还是shape:imagenet-trained cnns are biased
论文阅读·人工智能·cnn
视***间5 小时前
视程空间 AIR SC6N0-C-MB NX 16GB 规格详解与机器人/机器狗适配说明
人工智能·机器人·边缘计算·机器狗·ai算力·具身机器人·视程空间
视***间5 小时前
小身板・强算力・全适配 —— 视程空间 AI 算力开发板如何完美适配机器人 / 机器狗
人工智能·机器人·边缘计算·ai算力·视程空间·算力开发板