循环神经网络(RNN)、LSTM 与 GRU (一)

循环神经网络(RNN)、LSTM 与 GRU (一)


文章目录

  • [循环神经网络(RNN)、LSTM 与 GRU (一)](#循环神经网络(RNN)、LSTM 与 GRU (一))
  • [循环神经网络(RNN)、LSTM 与 GRU](#循环神经网络(RNN)、LSTM 与 GRU)
    • [一、RNN(Recurrent Neural Network)](#一、RNN(Recurrent Neural Network))
      • [1. 基本思想](#1. 基本思想)
      • [2. 数学表达](#2. 数学表达)
      • [3. 优缺点](#3. 优缺点)
    • [二、LSTM(Long Short-Term Memory)](#二、LSTM(Long Short-Term Memory))
      • [1. 引入背景](#1. 引入背景)
      • [2. 核心结构](#2. 核心结构)
      • [3. 状态更新](#3. 状态更新)
      • [4. 优缺点](#4. 优缺点)
    • [三、GRU(Gated Recurrent Unit)](#三、GRU(Gated Recurrent Unit))
      • [1. 概述](#1. 概述)
      • [2. 核心公式](#2. 核心公式)
      • [3. 特点](#3. 特点)
    • 四、对比总结
    • 五、结构对比图
    • 六、结语

循环神经网络(RNN)、LSTM 与 GRU

一、RNN(Recurrent Neural Network)

1. 基本思想

  • RNN 通过在网络中引入"循环"结构,使得当前时刻的输出不仅依赖当前输入,还依赖之前的隐藏状态。
  • 适合处理 序列数据,如文本、语音、时间序列预测。

2. 数学表达

  • 隐藏层更新:
    h t = f ( W x h x t + W h h h t − 1 + b h ) h_t = f(W_{xh}x_t + W_{hh}h_{t-1} + b_h) ht=f(Wxhxt+Whhht−1+bh)
  • 输出层:
    y t = g ( W h y h t + b y ) y_t = g(W_{hy}h_t + b_y) yt=g(Whyht+by)

3. 优缺点

  • 优点:能够建模序列信息,捕捉上下文依赖。
  • 缺点:存在梯度消失和梯度爆炸问题,难以学习长期依赖。

二、LSTM(Long Short-Term Memory)

1. 引入背景

  • 针对 RNN 的 长期依赖问题,LSTM 在结构上引入了"门控机制",有效缓解梯度消失问题。
  • 在自然语言处理、语音识别、时间序列预测等任务中应用广泛。

2. 核心结构

LSTM 的关键在于 细胞状态(Cell State)三个门(Gates)

  1. 遗忘门(Forget Gate) :决定丢弃多少历史信息。
    f t = σ ( W f [ x t , h t − 1 ] + b f ) f_t = \sigma(W_f[x_t, h_{t-1}] + b_f) ft=σ(Wf[xt,ht−1]+bf)

  2. 输入门(Input Gate) :决定写入多少新信息。
    i t = σ ( W i [ x t , h t − 1 ] + b i ) i_t = \sigma(W_i[x_t, h_{t-1}] + b_i) it=σ(Wi[xt,ht−1]+bi)
    C ~ t = tanh ⁡ ( W c [ x t , h t − 1 ] + b c ) \tilde{C}t = \tanh(W_c[x_t, h{t-1}] + b_c) C~t=tanh(Wc[xt,ht−1]+bc)

  3. 输出门(Output Gate) :决定输出多少细胞状态的信息。
    o t = σ ( W o [ x t , h t − 1 ] + b o ) o_t = \sigma(W_o[x_t, h_{t-1}] + b_o) ot=σ(Wo[xt,ht−1]+bo)

3. 状态更新

  • 细胞状态:
    C t = f t ∗ C t − 1 + i t ∗ C ~ t C_t = f_t * C_{t-1} + i_t * \tilde{C}_t Ct=ft∗Ct−1+it∗C~t
  • 隐藏状态:
    h t = o t ∗ tanh ⁡ ( C t ) h_t = o_t * \tanh(C_t) ht=ot∗tanh(Ct)

4. 优缺点

  • 优点:能解决长期依赖问题,更好地捕捉长距离信息。
  • 缺点:结构复杂,计算量大,训练速度较慢。

三、GRU(Gated Recurrent Unit)

1. 概述

  • GRU 是 LSTM 的简化版本,仅包含 更新门(Update Gate)重置门(Reset Gate)
  • 没有独立的细胞状态,直接用隐藏状态传递信息。

2. 核心公式

  • 更新门:
    z t = σ ( W z [ x t , h t − 1 ] ) z_t = \sigma(W_z[x_t, h_{t-1}]) zt=σ(Wz[xt,ht−1])
  • 重置门:
    r t = σ ( W r [ x t , h t − 1 ] ) r_t = \sigma(W_r[x_t, h_{t-1}]) rt=σ(Wr[xt,ht−1])
  • 新隐藏状态:
    h ~ t = tanh ⁡ ( W [ x t , ( r t ∗ h t − 1 ) ] ) \tilde{h}t = \tanh(W[x_t, (r_t * h{t-1})]) h~t=tanh(W[xt,(rt∗ht−1)])
  • 最终隐藏状态:
    h t = ( 1 − z t ) ∗ h t − 1 + z t ∗ h ~ t h_t = (1 - z_t) * h_{t-1} + z_t * \tilde{h}_t ht=(1−zt)∗ht−1+zt∗h~t

3. 特点

  • 结构更简洁,参数更少,训练更快。
  • 在很多任务中性能与 LSTM 接近甚至更优。

四、对比总结

特性 RNN LSTM GRU
结构 简单,循环层 复杂,含门控单元(3门+细胞状态) 较简洁,仅2门
长期依赖建模
计算复杂度 中等
训练速度 较快
典型应用 简单序列建模 机器翻译、语音识别 NLP、推荐系统、时序预测

五、结构对比图

GRU 反馈 更新门+重置门 隐藏状态 h_t x_t y_t LSTM 反馈 门控 隐藏状态 h_t x_t 细胞状态 C_t y_t RNN 反馈 隐藏状态 h_t x_t y_t


六、结语

  • RNN 是序列建模的基础,但受限于梯度消失问题。
  • LSTM 通过门控机制成功解决长期依赖,是深度学习里程碑式的模型。
  • GRU 在保持效果的同时,计算更高效,是实际工程中的常见选择。

总结一句:

如果序列较短,用 RNN 即可;

如果需要捕捉长期依赖,LSTM 更稳健;

如果追求训练速度和效果平衡,GRU 是不错的选择。

相关推荐
失散133 天前
自然语言处理——03 RNN及其变体
人工智能·rnn·自然语言处理·gru·lstm
算法_小学生3 天前
长短期记忆网络(LSTM)
人工智能·rnn·lstm
Hao想睡觉3 天前
循环神经网络实战:用 LSTM 做中文情感分析(二)
rnn·深度学习·lstm
算法_小学生4 天前
循环神经网络(RNN, Recurrent Neural Network)
人工智能·rnn·深度学习
学行库小秘4 天前
基于门控循环单元的数据回归预测 GRU
人工智能·深度学习·神经网络·算法·回归·gru
跳跳糖炒酸奶13 天前
第二章、LSTM(Long Short-term Memory:长短时记忆网络)
人工智能·rnn·深度学习·神经网络·lstm
AAA锅包肉批发14 天前
论文阅读:Aircraft Trajectory Prediction Model Based on Improved GRU Structure
论文阅读·深度学习·gru
数据知道14 天前
GRU模型:门控循环单元的原理与优势及Python实现
python·深度学习·gru
绕灵儿16 天前
C++ 部署LSTM(.onnx)
开发语言·c++·lstm