循环神经网络 RNN：从时间序列到自然语言的秘密武器

RNN（Recurrent Neural Network）是一类能够"记忆序列信息"的神经网络，它是处理时间序列、语音、自然语言、传感器数据等任务的核心模型，是 NLP 走向深度学习时代的关键技术之一。

假设我们做一句话情感分析：

"我非常喜欢这部电影。"

如果你用CNN 或全连接网络 对它逐词输入，它们会把句子视为互不相关的独立词袋，完全不能理解语义依赖，也不会考虑词序。

但是------语言是有顺序的！

一句话只差了一个不，情感直接反转。

因此，序列任务需要一种能记住"前文信息"，并将记忆作用到后续预测中的网络，这就是 RNN 的出发点。

RNN 的关键在于：当前时刻的输出由"当前输入 + 上一时刻的隐藏状态"共同决定。

一个最经典的 RNN 结构可以用一句话概括：

复制代码

h_t = f(h_(t-1), x_t)

同时它会把记忆从 t → t+1 → t+2 ... 一直传下去，就像一个会思考的链条：

复制代码

x1 → x2 → x3 → x4 → ...
↓    ↓    ↓    ↓
h1 → h2 → h3 → h4 → ...

你可以把它想象成：

RNN = 带记忆的神经网络，就像人看文章不是"一字一忘"，而是"越看越理解全文"。

复制代码

      ┌──────────────┐
x_t → │   RNN Cell   │ → h_t（输出 + 下一时刻记忆）
      └──────────────┘
          ↑
     上一时间记忆 h_(t-1)

每个 RNN Cell 作用相同，参数共享，这让它十分适合：

但基础 RNN 有两个大缺点：

缺陷	后果
梯度消失	记不住长距离依赖（句子后半段忘了前半段）
梯度爆炸	训练极不稳定

比如 NLP 中：

"我昨天吃了一碗面，味道很不错，我今天还想吃它。"

基础 RNN 往往记不住它 = 面，因此长依赖捕捉能力差。

于是------更强的变体出现了。

模型	解决问题	核心机制
LSTM	解决长依赖	引入输入门、遗忘门、输出门，能"选择记什么忘什么"
GRU	LSTM 的简化版	训练更快、效果接近或更优

一句话对比：

复制代码

RNN：傻直男，有啥记啥，记到崩
LSTM：聪明，知道该关心谁、忽略谁
GRU：更精简的聪明人

现在的 NLP、语音识别中，GRU 与 LSTM 是 RNN 的主流，而不是原生 RNN。

特别说明一句：

在 Transformer 出现之前，LSTM 几乎统治了 NLP 全领域。

本篇你只需要记住三个关键点：