参考书籍：https://zh-v2.d2l.ai/chapter_recurrent-modern/lstm.html
参考论文： https://colah.github.io/posts/2015-08-Understanding-LSTMs/

简介：

LSTM（长短期记忆网络）和GRU（门控循环单元）是两种常用的改进型循环神经网络（RNN），用于解决传统RNN中的长期依赖性和梯度消失/梯度爆炸等问题。

LSTM和GRU都通过引入门控机制和记忆单元来增强RNN的建模能力，并有效地捕捉长期依赖性。它们具有类似的结构，但在门控机制的设计和计算复杂度上有所不同。

一.LSTM长短期记忆网络（long short-term memory）

LSTM（Long Short-Term Memory）是一种常用的循环神经网络（RNN）变体，旨在解决传统RNN在处理长期依赖性时容易出现的梯度消失或梯度爆炸问题。LSTM通过引入门控机制，有效地捕捉和记忆时间序列数据中的长期依赖关系。

LSTM的核心思想是使用称为"门"的结构来控制信息的流动和记忆的更新。下面是LSTM的主要组成部分

输入门（Input Gate）：输入门决定哪些信息将被传递到细胞状态（Cell State）。它使用一个Sigmoid激活函数来控制输入的权重，以及一个tanh激活函数来处理输入的值。输入门的计算公式如下：
python 复制代码
```
i_t = sigmoid(W_i * x_t + U_i * h_(t-1) + b_i)
```
````
g_t = tanh(W_g * x_t + U_g * h_(t-1) + b_g)
````
```
遗忘门（Forget Gate）：遗忘门决定元状态中哪些信息应该被遗忘。它通过一个Sigmoid激活函数来控制元状态中的旧信息的权重。遗忘门的计算公式如下：
python 复制代码
```
f_t = sigmoid(W_f * x_t + U_f * h_(t-1) + b_f)
```
元状态更新（Cell State Update）：元状态通过将输入门和遗忘门的结果相乘，并添加新的候选值（由tanh激活函数计算得到）来更新。元状态更新的计算公式如下：
python 复制代码
```
C_t = f_t * C_(t-1) + i_t * g_t
```
输出门（Output Gate）：输出门决定从元状态中输出的值。它使用一个Sigmoid激活函数来控制输出的权重，并使用tanh激活函数处理元状态。输出门的计算公式如下：
python 复制代码
```
o_t = sigmoid(W_o * x_t + U_o * h_(t-1) + b_o)
```
python 复制代码
```
h_t = o_t * tanh(C_t)
```