Class48 GRU

Morning的呀2025-09-15 6:04

GRU 是 RNN的一种变体，主要为了解决梯度消失/梯度爆炸 和长期依赖学习困难。

不是每个观察值都同等重要

例如图中只有第一只猫比较重要，当然老鼠也很重要。

核心结构

一.重置门

作用：决定要"忘掉"多少过去的隐藏状态信息

输入：

输出：

直观理解：

想象你在写一句话时，前一句话的某些信息对当前词没用，你就"重置"掉它；有用的部分就保留下来。

二.重置门

作用：控制新信息与历史信息的融合

输出：

直观理解：

更新门类似"门闩"，决定当前隐藏状态是更"偏过去"还是更"偏现在"

让 GRU 能记住长期信息，也能快速吸收新信息

三.候选隐藏状态

作用：生成新的候选状态 ℎ~𝑡，准备更新隐藏状态

核心点：

输出：

直观理解：

候选状态是 "当前输入 + 部分历史记忆的混合"

重置门帮助 GRU 在需要时忘掉历史，专注当前输入

四.最终隐藏状态

作用：融合历史信息和新候选状态

核心：

完整表达：

直观理解:

GRU 通过公式实现长期记忆 + 短期更新的平衡