Class48 GRU

GRU 是 RNN的一种变体,主要为了解决梯度消失/梯度爆炸 和长期依赖学习困难。

不是每个观察值都同等重要
例如图中只有第一只猫比较重要,当然老鼠也很重要。
核心结构
一.重置门

作用:决定要"忘掉"多少过去的隐藏状态信息
输入:
输出:
直观理解:
想象你在写一句话时,前一句话的某些信息对当前词没用,你就"重置"掉它;有用的部分就保留下来。
二.重置门

作用:控制新信息与历史信息的融合
输出:
直观理解:
更新门类似"门闩",决定当前隐藏状态是更"偏过去"还是更"偏现在"
让 GRU 能记住长期信息,也能快速吸收新信息
三.候选隐藏状态

作用:生成新的候选状态 ℎ~𝑡,准备更新隐藏状态
核心点:
输出:
直观理解:
候选状态是 "当前输入 + 部分历史记忆的混合"
重置门帮助 GRU 在需要时忘掉历史,专注当前输入
四.最终隐藏状态
作用:融合历史信息和新候选状态
核心:
完整表达:
直观理解:
GRU 通过公式实现长期记忆 + 短期更新的平衡
