循环神经网络（RNN）

循环神经网络（Recurrent Neural Network，简称 RNN）是一类用于处理序列数据的神经网络模型。与传统的前馈神经网络（如多层感知机）不同，RNN 具有反馈结构，能够在处理当前输入的同时保持之前的计算结果，从而更好地处理序列数据，如时间序列、语音、文本等。

1. RNN 的基本原理

RNN 的核心思想是通过"循环连接"使得网络能够在序列的每一步保持对之前状态的记忆。具体来说，RNN 在每一个时间步都接收输入，同时更新其隐藏状态，并将该状态传递到下一个时间步。

1.1 数学公式

假设输入序列为
x 1 , x 2 , ... , x T x_1, x_2, \dots, x_T x1,x2,...,xT，对应的隐藏状态为 h 1 h_1 h1, h 2 h_2 h2, ... \dots ..., h T h_T hT，输出为 y 1 , y 2 , ... , y T y_1, y_2, \dots, y_T y1,y2,...,yT，RNN 的计算过程可以用以下公式表示：

隐藏状态更新公式：

h t = f ( W h ⋅ h t − 1 + W x ⋅ x t + b h ) h_t = f(W_h \cdot h_{t-1} + W_x \cdot x_t + b_h) ht=f(Wh⋅ht−1+Wx⋅xt+bh)

其中：

h t h_t ht：时间步 t t t 的隐藏状态
h t − 1 h_{t-1} ht−1：上一时间步的隐藏状态
x t x_t xt：当前时间步的输入
W h , W x W_h, W_x Wh,Wx：权重矩阵
b h b_h bh：偏置项
f f f：激活函数（通常是 sigmoid, a n h anh anh 或 ReLU）

输出计算公式：

y t = W y ⋅ h t + b y y_t = W_y \cdot h_t + b_y yt=Wy⋅ht+by

其中：

y t y_t yt：时间步 t t t的输出
W y W_y Wy：输出层的权重矩阵
b y b_y by：输出层的偏置项

1.2 反馈结构

RNN 中的反馈结构允许网络"记忆"之前的输入信息。具体来说，当前的隐藏状态不仅依赖于当前的输入 x t x_t xt，还依赖于上一时刻的隐藏状态 h t − 1 h_{t-1} ht−1，使得 RNN 能够捕捉序列中长期以来的信息。

2. RNN 的问题与挑战

尽管 RNN 在处理序列数据时表现出色，但它也存在一些问题，尤其是梯度消失和梯度爆炸问题。这些问题会导致模型在训练时难以学习长期依赖。

2.1 梯度消失与梯度爆炸

在反向传播过程中，梯度会通过链式法则传递。如果网络非常深（即时间步数很大），梯度会在多次传播后变得非常小（梯度消失），或者变得非常大（梯度爆炸）。这会导致网络无法有效训练。

2.2 长期依赖问题

RNN 在处理长序列时，容易遗忘之前的输入。虽然 RNN 可以通过循环连接保留信息，但它的能力有限，尤其是在序列较长时。

3. 改进 RNN 的方法

为了解决 RNN 的问题，研究者提出了许多改进版本的 RNN，最著名的包括长短时记忆网络（LSTM）和门控循环单元（GRU）。

3.1 LSTM（长短时记忆网络）

LSTM 是一种特殊的 RNN 架构，能够通过引入"门"机制（输入门、遗忘门和输出门）来控制信息的流动，从而避免梯度消失和梯度爆炸问题。LSTM 可以更好地捕捉长时间依赖关系。

LSTM 的更新公式如下：

遗忘门：

f t = σ ( W f ⋅ [ h t − 1 , x t ] + b f ) f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) ft=σ(Wf⋅[ht−1,xt]+bf)

输入门：

i t = σ ( W i ⋅ [ h t − 1 , x t ] + b i ) i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) it=σ(Wi⋅[ht−1,xt]+bi)

候选记忆单元：

i l d e C t = a n h ( W C ⋅ [ h t − 1 , x t ] + b C ) ilde{C}t = anh(W_C \cdot [h{t-1}, x_t] + b_C) ildeCt=anh(WC⋅[ht−1,xt]+bC)

更新记忆单元：

C t = f t ⋅ C t − 1 + i t ⋅ i l d e C t C_t = f_t \cdot C_{t-1} + i_t \cdot ilde{C}_t Ct=ft⋅Ct−1+it⋅ildeCt

输出门：

o t = σ ( W o ⋅ [ h t − 1 , x t ] + b o ) o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) ot=σ(Wo⋅[ht−1,xt]+bo)

隐藏状态更新：

h t = o t ⋅ a n h ( C t ) h_t = o_t \cdot anh(C_t) ht=ot⋅anh(Ct)

3.2 GRU（门控循环单元）

GRU 是另一种改进的 RNN，它通过结合遗忘门和输入门来简化 LSTM 结构，减少了计算复杂度。GRU 的更新公式如下：

更新门：

z t = σ ( W z ⋅ [ h t − 1 , x t ] + b z ) z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z) zt=σ(Wz⋅[ht−1,xt]+bz)

重置门：

r t = σ ( W r ⋅ [ h t − 1 , x t ] + b r ) r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r) rt=σ(Wr⋅[ht−1,xt]+br)

候选隐藏状态：

i l d e h t = a n h ( W h ⋅ [ r t ⋅ h t − 1 , x t ] + b h ) ilde{h}t = anh(W_h \cdot [r_t \cdot h{t-1}, x_t] + b_h) ildeht=anh(Wh⋅[rt⋅ht−1,xt]+bh)

隐藏状态更新：

h t = ( 1 − z t ) ⋅ h t − 1 + z t ⋅ i l d e h t h_t = (1 - z_t) \cdot h_{t-1} + z_t \cdot ilde{h}_t ht=(1−zt)⋅ht−1+zt⋅ildeht

📚 MLP前馈神经网络 vs RNN循环神经网络

比较维度	MLP（Multilayer Perceptron）	RNN（Recurrent Neural Network）
结构	前馈结构，无状态	有循环连接，带隐藏状态
输入处理	每次处理一个独立输入	处理输入序列，时间步之间有关联
时间建模能力	❌ 无时间记忆	✅ 能建模时间依赖
输入长度	固定	可变长度序列
隐藏状态	无	有 ( h_t )，可传递过去信息
梯度传播	标准反向传播（BP）	时间反向传播（BPTT）
训练速度	快，支持并行	慢，时序依赖，不易并行
适用任务	图像识别、静态数据分类等	自然语言、语音识别、机器人轨迹学习等

🧠 简单理解

MLP 是"无记忆"的，每次都"从零开始判断"。
RNN 是"有记忆"的，能"记住过去"，适合处理序列。

🤖 举例对比：机器人下一步往哪走？

MLP ：输入 当前状态，不考虑过去 → 容易误判。
RNN ：输入 过去几步的状态序列，能捕捉趋势 → 更稳健。

✍ 数学表示：

MLP：

复制代码

output = f(Wx + b)

RNN：

复制代码

h_t = f(Wx_t + Uh_{t-1} + b)
output_t = g(h_t)

✅ 什么时候用 RNN 更合适？

状态观测不完整，需要推理历史
任务具有时序依赖：如动态平衡、导航、跳跃动作
你希望策略"有记忆"而不是"当前状态拍脑袋决定"

标准 RNN（Vanilla RNN）

特点：标准的 RNN 是最基本的形式。它通过隐藏层将当前输入和先前的状态一起传递，并计算输出。其核心思想是在每个时间步使用相同的权重和偏置来更新隐藏状态，从而处理序列数据。

缺点：标准 RNN 在处理长序列时可能会遇到梯度消失或梯度爆炸的问题，因此它并不适合长时间依赖的任务。
长短时记忆网络（LSTM）

特点：LSTM 是一种改进版的 RNN，它引入了遗忘门（Forget Gate）、输入门（Input Gate）和输出门（Output Gate）来控制信息的流动。通过这些门机制，LSTM 可以更好地捕捉长时间依赖关系，避免了标准 RNN 中的梯度消失问题。

优点：LSTM 能够学习并记住长时间跨度的信息，特别适合语音识别、自然语言处理等任务。

缺点：相较于标准 RNN，LSTM 计算更为复杂，训练时所需的时间和资源较多。
门控循环单元（GRU）

特点：GRU 是另一种改进型的 RNN，与 LSTM 类似，它也使用门控机制来控制信息的流动。GRU 将 LSTM 中的遗忘门和输入门合并为一个更新门（Update Gate），从而简化了模型结构。

优点：GRU 相比于 LSTM 更加高效，参数较少，计算速度较快，适用于资源有限的情况。

缺点：GRU 虽然简化了 LSTM 的结构，但可能无法捕获 LSTM 中某些复杂的长期依赖关系。
双向 RNN（Bidirectional RNN）

特点：双向 RNN 通过将两个 RNN 层相结合来增强模型的表达能力。一个 RNN 层处理输入序列的正向信息，另一个 RNN 层处理反向信息。通过这种方式，双向 RNN 可以同时考虑过去和未来的上下文信息。

优点：双向 RNN 在处理时序数据时可以更全面地捕捉上下文信息，尤其适用于需要考虑未来信息的任务（如语音识别、文本标注等）。

缺点：双向 RNN 计算量较大，因为它需要同时处理正向和反向的序列。
深度 RNN（Deep RNN）

特点：深度 RNN 是一种具有多个隐藏层的 RNN。这些隐藏层堆叠在一起，使得网络能够学习更加复杂的特征。深度 RNN 可以通过多个时间步之间的交互，捕捉更高层次的抽象信息。

优点：深度 RNN 可以捕捉更加复杂和丰富的序列信息，适合处理更复杂的任务。

缺点：深度 RNN 可能会导致梯度消失或梯度爆炸问题，训练时需要较大的计算资源。
注意力机制（Attention Mechanism）

特点：虽然注意力机制本身并不完全是 RNN 的一种类型，但它经常与 RNN（特别是 LSTM 和 GRU）结合使用，以增强模型的性能。注意力机制通过加权输入序列中的每个部分，使模型能够"关注"输入中的重要部分，从而更好地处理长距离依赖。

优点：通过注意力机制，模型可以自动学习哪些部分对当前任务最为重要，减少对长时间序列的全局依赖。

缺点：增加了计算复杂度，但提升了性能。
Transformer

特点：Transformer 是一种基于注意力机制的架构，虽然它不依赖于传统的 RNN 结构，但它常常被视为 RNN 的替代方案。Transformer 使用多头自注意力机制（Self-Attention）来处理序列数据，而不是依赖递归连接。这使得 Transformer 能够并行处理序列中的所有元素，从而大大提高计算效率。

优点：Transformer 适用于非常长的序列，并且能够并行处理数据。由于其在 NLP 任务中的表现优越，Transformer 成为许多现代 NLP 模型（如 BERT、GPT、T5 等）的基础架构。

缺点：Transformer 对于短序列数据的处理效率较低。