Class48 GRU

Class48 GRU

GRU 是 RNN的一种变体,主要为了解决梯度消失/梯度爆炸长期依赖学习困难

不是每个观察值都同等重要

例如图中只有第一只猫比较重要,当然老鼠也很重要。

核心结构

一.重置门

作用:决定要"忘掉"多少过去的隐藏状态信息

输入:

输出:

直观理解:

想象你在写一句话时,前一句话的某些信息对当前词没用,你就"重置"掉它;有用的部分就保留下来。

二.重置门

作用:控制新信息与历史信息的融合

输出:

直观理解:

更新门类似"门闩",决定当前隐藏状态是更"偏过去"还是更"偏现在"

让 GRU 能记住长期信息,也能快速吸收新信息

三.候选隐藏状态

作用:生成新的候选状态 ℎ~𝑡,准备更新隐藏状态

核心点:

输出:

直观理解:

候选状态是 "当前输入 + 部分历史记忆的混合"

重置门帮助 GRU 在需要时忘掉历史,专注当前输入

四.最终隐藏状态

作用:融合历史信息和新候选状态

核心:

完整表达:

直观理解:

GRU 通过公式实现长期记忆 + 短期更新的平衡

相关推荐
艾莉丝努力练剑18 小时前
【C++:继承】C++面向对象继承全面解析:派生类构造、多继承、菱形虚拟继承与设计模式实践
linux·开发语言·c++·人工智能·stl·1024程序员节
少年码客18 小时前
英文 PDF 文档翻译成中文的优质应用
人工智能·1024程序员节
cxr82819 小时前
涌现的架构:集体智能框架构建解析
人工智能·语言模型·架构·1024程序员节·ai智能体·ai赋能
星空的资源小屋19 小时前
Tuesday JS,一款可视化小说编辑器
运维·网络·人工智能·编辑器·电脑·excel
飞飞是甜咖啡19 小时前
【文献阅读】Deep-learning-aided dismantling of interdependent networks
人工智能·复杂网络
咕咚-萌西19 小时前
Federated Learning-Empowered AI-Generated Content in Wireless Networks
人工智能
机器学习之心20 小时前
PINN物理信息神经网络股票价格预测模型Matlab实现
人工智能·pinn·物理信息神经网络
咕咚-萌西20 小时前
MLLM-LLaVA-FL: Multimodal Large Language Model Assisted FederatedLearning
人工智能·语言模型·自然语言处理
人工智能研究所20 小时前
视频与音频碰撞,谷歌 Veo 3.1,生成“有声电影”,人物对话超震撼
人工智能·文生图·谷歌·文生视频·veo3.1
DisonTangor20 小时前
PaddleOCR-VL: 通过0.9B超紧凑视觉语言模型增强多语言文档解析
人工智能·计算机视觉·语言模型·自然语言处理·开源·aigc