Class48 GRU

Class48 GRU

GRU 是 RNN的一种变体,主要为了解决梯度消失/梯度爆炸长期依赖学习困难

不是每个观察值都同等重要

例如图中只有第一只猫比较重要,当然老鼠也很重要。

核心结构

一.重置门

作用:决定要"忘掉"多少过去的隐藏状态信息

输入:

输出:

直观理解:

想象你在写一句话时,前一句话的某些信息对当前词没用,你就"重置"掉它;有用的部分就保留下来。

二.重置门

作用:控制新信息与历史信息的融合

输出:

直观理解:

更新门类似"门闩",决定当前隐藏状态是更"偏过去"还是更"偏现在"

让 GRU 能记住长期信息,也能快速吸收新信息

三.候选隐藏状态

作用:生成新的候选状态 ℎ~𝑡,准备更新隐藏状态

核心点:

输出:

直观理解:

候选状态是 "当前输入 + 部分历史记忆的混合"

重置门帮助 GRU 在需要时忘掉历史,专注当前输入

四.最终隐藏状态

作用:融合历史信息和新候选状态

核心:

完整表达:

直观理解:

GRU 通过公式实现长期记忆 + 短期更新的平衡

相关推荐
科技小花3 小时前
全球化深水区,数据治理成为企业出海 “核心竞争力”
大数据·数据库·人工智能·数据治理·数据中台·全球化
zhuiyisuifeng4 小时前
2026前瞻:GPTimage2镜像官网或将颠覆视觉创作
人工智能·gpt
徐健峰4 小时前
GPT-image-2 热门玩法实战(一):AI 看手相 — 一张手掌照片生成专业手相分析图
人工智能·gpt
weixin_370976354 小时前
AI的终极赛跑:进入AGI,还是泡沫破灭?
大数据·人工智能·agi
Slow菜鸟4 小时前
AI学习篇(五) | awesome-design-md 使用说明
人工智能·学习
冬奇Lab5 小时前
RAG 系列(五):Embedding 模型——语义理解的核心
人工智能·llm·aigc
深小乐5 小时前
AI 周刊【2026.04.27-05.03】:Anthropic 9000亿美元估值、英伟达死磕智能体、中央重磅定调AI
人工智能
码点滴5 小时前
什么时候用 DeepSeek V4,而不是 GPT-5/Claude/Gemini?
人工智能·gpt·架构·大模型·deepseek
狐狐生风5 小时前
LangChain 向量存储:Chroma、FAISS
人工智能·python·学习·langchain·faiss·agentai
波动几何5 小时前
CDA架构代码工坊技能cda-code-lab
人工智能