背景
普通 RNN 每次只根据当前输入和前一时刻隐藏状态更新,但这样会导致:
1、信息在时间上被反复乘以梯度矩阵,容易 梯度消失/爆炸;
2、记忆"短期"依赖不错,但"长期"记忆难以保留。
LSTM 的核心思想是 引入"细胞状态 " ,让网络有一条可以"长期传递信息"的路径,并通过三个门有选择地更新记忆。
LSTM 的核心结构
每个 LSTM 单元有:
一个 输入门(input gate) 决定写入多少新信息
一个 遗忘门(forget gate)决定丢弃多少旧信息
一个 输出门(output gate)决定输出多少当前记忆
一个 细胞状态(cell state)