基本循环神经网络(RNN)

RNN背景：RNN与FNN

在前馈神经网络中，信息的传递是单向的 ，这种限制虽然使得网络变得更容易学习，但在一定程度上也减弱了神经网络模型的能力。

在生物神经网络中，神经元之间的连接关系要复杂的多。前馈神经网络可以看着是一个复杂的函数，每次输入都是独立的，即网络的输出只依赖于当前的输入。
但是在很多现实任务中，网络的输入不仅和当前时刻的输入相关，也和其过去一段时间的输出相关 。比如一个有限状态自动机，其下一个时刻的状态（输出）不仅仅和当前输入相关，也和当前状态（上一个时刻的输出）相关。

此外，前馈网络难以处理时序数据，比如视频、语音、文本等。时序数据的长度一般是不固定的，而前馈神经网络要求输入和输出的维数都是固定的，不能任意改变。因此，当处理这一类和时序相关的问题时，就需要一种能力更强的模型。

循环神经网络（Recurrent Neural Network，RNN） 是一类具有短期记忆能力的神经网络。在循环神经网络中，神经元不但可以接受其它神经元的信息，也可以接受自身的信息，形成具有环路的网络结构。和前馈神经网络相比，循环神经网络更加符合生物神经网络的结构。

基本循环神经网络

循环神经网络的基本结构包括输入层、隐藏层和输出层。输入层的输入是序列数据，隐藏层的输出是经过循环神经网络计算得到的结果，输出层的输出是最终的预测结果。RNN模型的循环结构是指隐藏层的输出不仅可以传递给下一时刻的隐藏层，还可以作为输入层的输入。因此，RNN模型可以处理序列数据，并将每个时刻的数据传递给下一个时刻，以便进行长时间的依赖关系分析。

结构：

x 是输入向量，o 是输出向量，s 表示隐藏层的值；U 是输入层到隐藏层的权重矩阵 ，V 是隐藏层到输出层的权重矩阵 。循环神经网络的隐藏层的值s不仅仅取决于当前这次的输入x，还取决于上一次隐藏层的值s-1 。权重矩阵W就是隐藏层上一次的值作为这一次的输入的权重。

我们将上图的基本RNN结构在时间维度展开(RNN是一个链式结构，每个时间片使用的是相同的参数)：

其中，t 是时刻， x 是输入层， s 是隐藏层， o 是输出层，矩阵 W 就是隐藏层上一次的值作为这一次的输入的权重。

为什么循环神经网络可以往前看任意多个输入值呢？

如果反复把式 2 带入到式 1，将得到：

从上面的式子中可以看出：输出受前面历次输入值的影响

训练算法

循环神经网络的训练过程比较复杂，需要更多的计算资源和时间。训练过程通常采用反向传播算法和梯度下降算法。反向传播算法（BPTT） 是指通过计算输出层和隐藏层之间的误差，并将误差反向传递给隐藏层和输入层，以便更新网络的权重。梯度下降算法是指通过计算损失函数对权重的梯度，并将梯度下降的方向作为优化方向，以最小化损失函数。