Class48 GRU

Class48 GRU

GRU 是 RNN的一种变体,主要为了解决梯度消失/梯度爆炸长期依赖学习困难

不是每个观察值都同等重要

例如图中只有第一只猫比较重要,当然老鼠也很重要。

核心结构

一.重置门

作用:决定要"忘掉"多少过去的隐藏状态信息

输入:

输出:

直观理解:

想象你在写一句话时,前一句话的某些信息对当前词没用,你就"重置"掉它;有用的部分就保留下来。

二.重置门

作用:控制新信息与历史信息的融合

输出:

直观理解:

更新门类似"门闩",决定当前隐藏状态是更"偏过去"还是更"偏现在"

让 GRU 能记住长期信息,也能快速吸收新信息

三.候选隐藏状态

作用:生成新的候选状态 ℎ~𝑡,准备更新隐藏状态

核心点:

输出:

直观理解:

候选状态是 "当前输入 + 部分历史记忆的混合"

重置门帮助 GRU 在需要时忘掉历史,专注当前输入

四.最终隐藏状态

作用:融合历史信息和新候选状态

核心:

完整表达:

直观理解:

GRU 通过公式实现长期记忆 + 短期更新的平衡

相关推荐
大江东去浪淘尽千古风流人物6 小时前
【SLAM新范式】几何主导=》几何+学习+语义+高效表示的融合
深度学习·算法·slam
是枚小菜鸡儿吖6 小时前
CANN 算子开发黑科技:AI 自动生成高性能 Kernel 代码
人工智能·科技
hqyjzsb6 小时前
盲目用AI提效?当心陷入“工具奴”陷阱,效率不增反降
人工智能·学习·职场和发展·创业创新·学习方法·业界资讯·远程工作
Eloudy7 小时前
用 Python 直写 CUDA Kernel的技术,CuTile、TileLang、Triton 与 PyTorch 的深度融合实践
人工智能·pytorch
神的泪水7 小时前
CANN 实战全景篇:从零构建 LLM 推理引擎(基于 CANN 原生栈)
人工智能
yuanyuan2o27 小时前
【深度学习】全连接、卷积神经网络
人工智能·深度学习·cnn
八零后琐话7 小时前
干货:Claude最新大招Cowork避坑!
人工智能
汗流浃背了吧,老弟!7 小时前
BPE 词表构建与编解码(英雄联盟-托儿索语料)
人工智能·深度学习
软件聚导航7 小时前
从 AI 画马到马年红包封面,我还做了一个小程序
人工智能·chatgpt