跟李沐学AI:门控循环单元GRU、

目录

简介

候选隐藏状态

隐状态


简介

GRU是一种在循环神经网络中使用的单元结构。它旨在解决传统RNN在网络处理长序列数据时遇到的梯度消失或梯度爆炸问题。

GRU通过引入门控机制来控制信息的流动,从而使得网络能够更好地学习长期依赖性。

门可以视为一个与隐状态相同长度的向量,分为重置门和更新门。 重置门允许我们控制"可能还想记住"的过去状态的数量; 更新门将允许我们控制新状态中有多少个是旧状态的副本。更新门是一个sigmoid激活函数输出的结果,其值范围在0到1之间。当更新门完全打开(接近1)时,意味着旧状态将完全保留;当它关闭(接近0)时,则意味着旧状态将被丢弃,新的候选状态将完全取代旧状态。

重置门计算公式为:

更新门计算公式为:

候选隐藏状态

候选隐状态(candidate hidden state)是指在某一时间步t计算出的一个潜在的新隐状态值,通常用表示。

候选隐状态计算公式为:

符号⊙是Hadamard积(按元素乘积)运算符。 在这里,我们使用tanh非线性激活函数来确保候选隐状态中的值保持在区间(−1,1)中。其中,重置门的作用是确定上一时刻的状态​中有多少信息需要传递到当前时刻的候选隐状态中。如果重置门关闭(即​接近于0),则上一时刻的信息对当前候选隐状态的影响很小;如果重置门开启(即​接近于1),则上一时刻的信息将完全参与当前候选隐状态的计算。

隐状态

结合更新们,可以确定新的隐状态决定了新的隐状态多大程度来自旧的隐状态和新的候选状态。每当更新门接近1时,模型就倾向只保留旧状态。 此时,来自的信息基本上被忽略, 从而有效地跳过了依赖链条中的时间步t。 相反,当接近0时, 新的隐状态就会接近候选隐状态

隐状态公式为:

相关推荐
lijianhua_97124 小时前
国内某顶级大学内部用的ai自动生成论文的提示词
人工智能
EDPJ5 小时前
当图像与文本 “各说各话” —— CLIP 中的模态鸿沟与对象偏向
深度学习·计算机视觉
蔡俊锋5 小时前
用AI实现乐高式大型可插拔系统的技术方案
人工智能·ai工程·ai原子能力·ai乐高工程
自然语5 小时前
人工智能之数字生命 认知架构白皮书 第7章
人工智能·架构
大熊背5 小时前
利用ISP离线模式进行分块LSC校正的方法
人工智能·算法·机器学习
eastyuxiao5 小时前
如何在不同的机器上运行多个OpenClaw实例?
人工智能·git·架构·github·php
诸葛务农5 小时前
AGI 主要技术路径及核心技术:归一融合及未来之路5
大数据·人工智能
光影少年5 小时前
AI Agent智能体开发
人工智能·aigc·ai编程
ai生成式引擎优化技术6 小时前
TSPR-WEB-LLM-HIC (TWLH四元结构)AI生成式引擎(GEO)技术白皮书
人工智能
帐篷Li6 小时前
9Router:开源AI路由网关的架构设计与技术实现深度解析
人工智能