理解LSTM - 技术栈

如何从RNN起步，一步一步通俗理解LSTM
Understanding LSTM Networks
LSTM-from-scratch-in-Pytorch
LSTM Neural Network from Scratch
Implementing a LSTM from scratch with Numpy

这张图就是最常见的LSTM结构图，但是隐藏了很多细节。下面这张图是一个LSTM模块的细节放大图：

图中：

绿色的是长期记忆 long-term memory；
玫瑰红色？的是短期记忆 short term memory；
灰色的线是当前的输入x；
每个蓝色的方框代表sigmoid函数，输出值在 0 到 1 之间，作为权重，控制信息的流动；
每个橘色的方框代表tanh函数，输出值在 -1 到 1 之间，更好的编码信息，并且保持数据的中心化；
第一个浅蓝色的虚线框，代表记忆门或遗忘门 ，一体两面，都是一回事，给重要的需要记忆的高权重，给不重要的需要忘记的低权重。用来计算长期记忆中如何向下一步传递信息。公式中x是当前输入，h是短期记忆，c是长期记忆。
第二个浅绿色的虚线框，是输入门 ，是当前要加入到长期记忆中的信息的权重，
第三个浅黄色虚线框，是当前需要加入到长期记忆中的信息，包括短期记忆和当前输入，和权重相乘后加入到长期记忆中。
第四个浅紫色的虚线框，是输出门 ，是当前处理过的长期记忆（update long-term memory）中要输出的信息的权重。
第五个浅红色虚线框，是当前处理过的长期记忆（update long-term memory）经过tanh激活后，变为当前潜在要输出的短期记忆，乘以前一个输出的权重，得到新的短期记忆输出。

一个完整的计算过程，pytorch中的LSTM函数。

总结：

长期记忆要经过记忆门（乘以权重），决定要传播的信息；
短期记忆以及当前输入，要经过激活，再经过输入门（乘以权重），决定要加入到长期记忆中传播的信息；
经过了前两步的长期记忆，经过激活，再经过输出门（乘以权重），得到最终的短期记忆输出；
每个门，也就是权重，输入都包括短期记忆和当前输入两部分，使用sigmoid函数激活；
每个加入的信息，使用tanh函数激活。

python 复制代码

import torch
import torch.nn as nn

rnn = nn.LSTM(input_size=10, hidden_size=20, num_layers=2)
#默认batch_first=False，所以输入是（length，batch_size，input_size）
input = torch.randn(5, 3, 10)
#短期记忆，（num_layers，batch_size，hidden_size）
h0 = torch.randn(2, 3, 20)
#长期记忆，（num_layers，batch_size，hidden_size）
c0 = torch.randn(2, 3, 20)
output, (hn, cn) = rnn(input, (h0, c0))
#输出，（length，batch_size，hidden_size）
output.shape
#torch.Size([5, 3, 20])