pytorch-LSTM

wyw00002024-07-16 16:02

1. RNN存在的问题

如下图：RNN能满足预测下一个单词，但是对于获取更多的上下文信息就做不到了。

RNN能做到短时记忆即short time memory，而LSTM相对RNN能够处理更长的时间序列，因此被称为LSTM即long short time memory

RNN有一串重复的模块，这些模块使用统一的权重Whh和Wih

LSTM也有一连串的类似结构，但是重复模块是不同的结构，它用四个单层的神经网络替代，并以指定的方式相互作用。它有三个门，分别是遗忘门、输入门和输出门。

门是一种信息过滤方式，他们由sigmod函数和点乘操作组成，sigmod范围是0~1，因此通过sigmod函数可以控制输出。

遗忘门f_t是h_t-1和x_t经过一系列运算，再经过sigmod函数得到的

输入门由两部分组成，一个是i_t输入门层，它是通过h_t-1和x_t经过一系列运算，再经过sigmod函数得到的。

另一个是新的输入C_t^'，这里没有直接使用x_t作为输入，而是通过h_t-1和x_t经过一系列运算，再经过tanh函数得到新的输入C_t^'。

最后输出C_t = f_t*C_t-1 + i_t*C_t^'

输出门o_t也是通过h_t-1和x_t经过一系列运算，再经过sigmod函数得到的。

最后的输出h_t = o_t*tanh(C_t)
注意：LSTM中h_t已经不是memory了，而是输出，C_t才是memory

可以看出每个门的运算都与h_t-1和x_t相关，并且通过sigmod函数来控制门的开度，最后的输出h_t使用了tanh

输入们和遗忘门门的组合，会得到不同的值，如下图：

从梯度计算公式可以知道，RNN的梯度中有W_hh的累乘，当W_hh<1时，就可能出现梯度弥散，而LSTM梯度由几项累加得到，即使W很小也很难出现梯度弥散。