Class48 GRU

Class48 GRU

GRU 是 RNN的一种变体,主要为了解决梯度消失/梯度爆炸长期依赖学习困难

不是每个观察值都同等重要

例如图中只有第一只猫比较重要,当然老鼠也很重要。

核心结构

一.重置门

作用:决定要"忘掉"多少过去的隐藏状态信息

输入:

输出:

直观理解:

想象你在写一句话时,前一句话的某些信息对当前词没用,你就"重置"掉它;有用的部分就保留下来。

二.重置门

作用:控制新信息与历史信息的融合

输出:

直观理解:

更新门类似"门闩",决定当前隐藏状态是更"偏过去"还是更"偏现在"

让 GRU 能记住长期信息,也能快速吸收新信息

三.候选隐藏状态

作用:生成新的候选状态 ℎ~𝑡,准备更新隐藏状态

核心点:

输出:

直观理解:

候选状态是 "当前输入 + 部分历史记忆的混合"

重置门帮助 GRU 在需要时忘掉历史,专注当前输入

四.最终隐藏状态

作用:融合历史信息和新候选状态

核心:

完整表达:

直观理解:

GRU 通过公式实现长期记忆 + 短期更新的平衡

相关推荐
AC赳赳老秦12 分钟前
OpenClaw email技能:批量发送邮件、自动回复,高效处理工作邮件
运维·人工智能·python·django·自动化·deepseek·openclaw
用户78245208077931 分钟前
一些容易混淆的点(个人记录)
人工智能
胡志辉33 分钟前
OpenClaw 教程:新 Mac 从 0 配到国产 AI、飞书微信和无人值守
人工智能·神经网络
机器之心44 分钟前
全球第一,13个SOTA!我们找到了龙虾界掌管GUI的神
人工智能·openai
AI问答工程师1 小时前
Meta Muse Spark 的"思维压缩"到底是什么?我用 Python 复现了核心思路(附代码)
人工智能·python
机器之心1 小时前
大佬深度解析:Coding Agent的底层运行逻辑是什么?
人工智能·openai
爱吃的小肥羊1 小时前
Claude降智再被实锤!推理能力严重下滑,用户连夜跑路 Codex
人工智能·aigc·openai
Rabbit_QL1 小时前
【理论分析】信息熵的极值问题:什么时候最小?什么时候最大?
人工智能·深度学习
❀͜͡傀儡师1 小时前
Spring AI Alibaba vs. AgentScope:两个阿里AI框架,如何选择?
java·人工智能·spring
njsgcs1 小时前
MPNN框架 消息生成与聚合 (公式 1)
人工智能