循环神经网络（RNN）、LSTM 与 GRU （一）

Hao想睡觉2025-08-25 19:09

循环神经网络（RNN）、LSTM 与 GRU （一）

文章目录

[循环神经网络（RNN）、LSTM 与 GRU （一）](#循环神经网络（RNN）、LSTM 与 GRU （一）)
[循环神经网络（RNN）、LSTM 与 GRU](#循环神经网络（RNN）、LSTM 与 GRU)
- [一、RNN（Recurrent Neural Network）](#一、RNN（Recurrent Neural Network）)
- - [1. 基本思想](#1. 基本思想)
  - [2. 数学表达](#2. 数学表达)
  - [3. 优缺点](#3. 优缺点)
- [二、LSTM（Long Short-Term Memory）](#二、LSTM（Long Short-Term Memory）)
- - [1. 引入背景](#1. 引入背景)
  - [2. 核心结构](#2. 核心结构)
  - [3. 状态更新](#3. 状态更新)
  - [4. 优缺点](#4. 优缺点)
- [三、GRU（Gated Recurrent Unit）](#三、GRU（Gated Recurrent Unit）)
- - [1. 概述](#1. 概述)
  - [2. 核心公式](#2. 核心公式)
  - [3. 特点](#3. 特点)
- 四、对比总结
- 五、结构对比图
- 六、结语

循环神经网络（RNN）、LSTM 与 GRU

一、RNN（Recurrent Neural Network）

1. 基本思想

RNN 通过在网络中引入"循环"结构，使得当前时刻的输出不仅依赖当前输入，还依赖之前的隐藏状态。
适合处理 序列数据，如文本、语音、时间序列预测。

2. 数学表达

隐藏层更新：
h t = f ( W x h x t + W h h h t − 1 + b h ) h_t = f(W_{xh}x_t + W_{hh}h_{t-1} + b_h) ht=f(Wxhxt+Whhht−1+bh)
输出层：
y t = g ( W h y h t + b y ) y_t = g(W_{hy}h_t + b_y) yt=g(Whyht+by)

3. 优缺点

优点：能够建模序列信息，捕捉上下文依赖。
缺点：存在梯度消失和梯度爆炸问题，难以学习长期依赖。

二、LSTM（Long Short-Term Memory）

1. 引入背景

针对 RNN 的 长期依赖问题，LSTM 在结构上引入了"门控机制"，有效缓解梯度消失问题。
在自然语言处理、语音识别、时间序列预测等任务中应用广泛。

2. 核心结构

LSTM 的关键在于 细胞状态（Cell State） 和 三个门（Gates）：

遗忘门（Forget Gate） ：决定丢弃多少历史信息。
f t = σ ( W f [ x t , h t − 1 ] + b f ) f_t = \sigma(W_f[x_t, h_{t-1}] + b_f) ft=σ(Wf[xt,ht−1]+bf)
输入门（Input Gate） ：决定写入多少新信息。
i t = σ ( W i [ x t , h t − 1 ] + b i ) i_t = \sigma(W_i[x_t, h_{t-1}] + b_i) it=σ(Wi[xt,ht−1]+bi)
C ~ t = tanh ⁡ ( W c [ x t , h t − 1 ] + b c ) \tilde{C}t = \tanh(W_c[x_t, h{t-1}] + b_c) C~t=tanh(Wc[xt,ht−1]+bc)
输出门（Output Gate） ：决定输出多少细胞状态的信息。
o t = σ ( W o [ x t , h t − 1 ] + b o ) o_t = \sigma(W_o[x_t, h_{t-1}] + b_o) ot=σ(Wo[xt,ht−1]+bo)

3. 状态更新

细胞状态：
C t = f t ∗ C t − 1 + i t ∗ C ~ t C_t = f_t * C_{t-1} + i_t * \tilde{C}_t Ct=ft∗Ct−1+it∗C~t
隐藏状态：
h t = o t ∗ tanh ⁡ ( C t ) h_t = o_t * \tanh(C_t) ht=ot∗tanh(Ct)

4. 优缺点

优点：能解决长期依赖问题，更好地捕捉长距离信息。
缺点：结构复杂，计算量大，训练速度较慢。

三、GRU（Gated Recurrent Unit）

1. 概述

GRU 是 LSTM 的简化版本，仅包含 更新门（Update Gate） 和 重置门（Reset Gate）。
没有独立的细胞状态，直接用隐藏状态传递信息。

2. 核心公式

更新门：
z t = σ ( W z [ x t , h t − 1 ] ) z_t = \sigma(W_z[x_t, h_{t-1}]) zt=σ(Wz[xt,ht−1])
重置门：
r t = σ ( W r [ x t , h t − 1 ] ) r_t = \sigma(W_r[x_t, h_{t-1}]) rt=σ(Wr[xt,ht−1])
新隐藏状态：
h ~ t = tanh ⁡ ( W [ x t , ( r t ∗ h t − 1 ) ] ) \tilde{h}t = \tanh(W[x_t, (r_t * h{t-1})]) h~t=tanh(W[xt,(rt∗ht−1)])
最终隐藏状态：
h t = ( 1 − z t ) ∗ h t − 1 + z t ∗ h ~ t h_t = (1 - z_t) * h_{t-1} + z_t * \tilde{h}_t ht=(1−zt)∗ht−1+zt∗h~t

3. 特点

结构更简洁，参数更少，训练更快。
在很多任务中性能与 LSTM 接近甚至更优。

四、对比总结

特性	RNN	LSTM	GRU
结构	简单，循环层	复杂，含门控单元（3门+细胞状态）	较简洁，仅2门
长期依赖建模	弱	强	强
计算复杂度	低	高	中等
训练速度	快	慢	较快
典型应用	简单序列建模	机器翻译、语音识别	NLP、推荐系统、时序预测

五、结构对比图

GRU 反馈更新门+重置门隐藏状态 h_t x_t y_t LSTM 反馈门控隐藏状态 h_t x_t 细胞状态 C_t y_t RNN 反馈隐藏状态 h_t x_t y_t

六、结语

RNN 是序列建模的基础，但受限于梯度消失问题。
LSTM 通过门控机制成功解决长期依赖，是深度学习里程碑式的模型。
GRU 在保持效果的同时，计算更高效，是实际工程中的常见选择。

总结一句：

如果序列较短，用 RNN 即可；

如果需要捕捉长期依赖，LSTM 更稳健；

如果追求训练速度和效果平衡，GRU 是不错的选择。

上一篇：学习制作记录（选项UI以及存档系统）8.24

下一篇：基于FPGA的情绪感知系统设计方案：心理健康监测应用（一）

热门推荐

01GitHub 镜像站点 02Labelme从安装到标注：零基础完整指南 03安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）04Linux下V2Ray安装配置指南 05jdk21下载、安装（Windows、Linux、macOS）06Claude Code 2.1.2 升级报错？别折腾了，一行命令搞定 072025-04-03 Latex学习1——本地配置Latex + VScode环境 08自用Proteus(8.15)常用元器件图示和功能介绍(持续更新...)09【踩坑笔记】50系显卡适配的 PyTorch 安装 10Opencode CLI 安装成功,但是启动失败