对gru的理解

GRU(Gated Recurrent Unit,门控循环单元)是一种循环神经网络(RNN)的变体,最早由Kyunghyun Cho等人在2014年提出。它是**LSTM(Long Short-Term Memory)**的简化版,旨在缓解标准RNN的梯度消失问题,同时减少计算开销。


1. GRU 结构

GRU的核心由两个门控制信息流动:

  • 更新门(Update Gate,z):决定当前时间步的隐藏状态有多少信息需要保留、多少信息来自新输入。
  • 重置门(Reset Gate,r):控制遗忘过去的信息,决定当前输入对隐藏状态的影响程度。

GRU的数学公式如下:

  1. 更新门

    z t = σ ( W z x t + U z h t − 1 + b z ) z_t = \sigma(W_z x_t + U_z h_{t-1} + b_z) zt=σ(Wzxt+Uzht−1+bz)

  2. 重置门
    r t = σ ( W r x t + U r h t − 1 + b r r_t = \sigma(W_r x_t + U_r h_{t-1} + b_r rt=σ(Wrxt+Urht−1+br

  3. 候选隐藏状态

    h ~ t = tanh ⁡ ( W h x t + U h ( r t ⊙ h t − 1 ) + b h ) \tilde{h}t = \tanh(W_h x_t + U_h (r_t \odot h{t-1}) + b_h) h~t=tanh(Whxt+Uh(rt⊙ht−1)+bh)

  4. 最终隐藏状态更新
    h t = ( 1 − z t ) ⊙ h t − 1 + z t ⊙ h ~ t h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t ht=(1−zt)⊙ht−1+zt⊙h~t

其中:

  • σ \sigma σ 是sigmoid函数,确保门的输出在 (0,1) 之间。
  • ⊙ \odot ⊙ 代表逐元素乘法(Hadamard 乘积)
  • W W W 和 U U U 是可训练权重, b b b 是偏置项。

从公式我们可以看出, 在计算 h ~ t \tilde{h}_t h~t 的时候, r t rt rt(重置门) 越接近1则结果受到过去状态的影响越大, r t rt rt(重置门) 越接近0的时候,结果受到过去状态的影响越小。 这就是重置门的作用。用于控制遗忘过去的信息。

计算新的 h t h_t ht 的时候, 更新们 z t z_t zt 越接近1,结果受到 h ~ t \tilde{h}_t h~t (当前输入)影响大, 当 z t z_t zt 越接近0时, 结果受到 h t h_t ht(过去状态)影响大。所以这体现了更新门的作用:决定当前时间步的隐藏状态有多少信息需要保留、多少信息来自新输入。

相关推荐
王莎莎-MinerU2 分钟前
从 OCR 到 Context Engineering:用 MinerU 搭一个可复现文档解析评测
人工智能·深度学习·机器学习·pdf·ocr·个人开发
叫我:松哥2 分钟前
基于卷积神经网络的静态手势语识别算法,在测试集上的识别准确率达到97.5%
人工智能·python·深度学习·神经网络·算法·cnn
虎妞05004 分钟前
PyTorch 2.0 生产级部署与性能优化指南
pytorch·深度学习·ai·模型部署·cuda
独自归家的兔5 分钟前
Claude Fable 5 与 Claude Mythos 5 全面解析及定价策略分析
人工智能·深度学习
YOLO数据集集合9 分钟前
智能道路病害识别 公路巡检深度学习数据集实战 | 路面缺陷检测 无人机视觉 道路养护AI方案10299期
人工智能·深度学习·目标检测·无人机
月疯26 分钟前
torch:transpose和permute的用法
人工智能·pytorch·深度学习
直接冲冲冲31 分钟前
pytorch-深度学习-引言
人工智能·pytorch·深度学习
装不满的克莱因瓶33 分钟前
掌握多头自注意力机制(Multi-Head Self-Attention)——Transformer 强大表达能力的核心来源
人工智能·python·深度学习·数学·ai·transformer
大模型最新论文速读36 分钟前
06-10 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
o561路6o623o71 小时前
陈,CPP条件位置偏爱系统
深度学习