【机器学习】20. RNN - Recurrent Neural Networks 和 LSTM

pen-ai2024-11-03 5:08

1. RNN定义

简单RNN含有由1个隐藏层构成的前馈神经网络, 这个隐藏层特别的, 含有一个记忆缓存, 会存储隐藏层之前一个时间步的状态. 在每一个时间步, 记忆缓存中的数据会和下一组输入结合作为隐藏层神经元的下一次输入.

图片来源：https://blog.csdn.net/v_JULY_v/article/details/89894058

RNN 会受到短时记忆的影响。如果一条序列足够长，那它们将很难将信息从较早的时间步传送到后面的时间步。

在递归神经网络中，获得小梯度更新的层会停止学习------ 那些通常是较早的层。由于这些层不学习，RNN会忘记它在较长序列中以前看到的内容，因此RNN只具有短时记忆。

在反向传播过程中, 误差梯度会在每个时间步中与w_hh 多次相乘, 如果这些权重过小, 这种多次相乘会导致梯度逐渐变得非常小, 最终几乎消失

而梯度爆炸则是因为计算的难度越来越复杂导致。

LSTM，可以在一定程度上解决梯度消失和梯度爆炸这两个问题

4张图，直接了解完LSTM

忘记门会读取上一个输出h_{t-1}和当前输入x_{t},做一个Sigmoid 的非线性映射，然后输出一个向量f_{t}

C 是细胞状态