LSTM和GRU vs 普通的循环神经网络RNN

xw5556662023-12-24 13:43

1、考虑下列三种情况下，对比一下普通RNN的表现和LSTM和GRU表现：

（1）早期观测值对预测未来观测者具有非常重要的意义。

考虑一个极端情况，其中第一个观测值包含一个校验和，目标是在序列的末尾辨别校验和是否正确。在这种情况下，第一个词元的影响至关重要。

RNN的表现：将不得不给这个观测值指定一个非常大的梯度，因为它会影响所有后续的观测值。

LSTM和GRU的表现：提供某些机制能够在一个记忆元里存储重要的早期信息。

（2）一些词元没有相关的观测值。

例如，在对网页内容进行情感分析时，可能有一些辅助HTML代码与网页传达的情绪无关。

RNN的表现 ：没有机制来跳过隐状态表示中的此类词元。

LSTM和GRU的表现 ：有一些机制来跳过隐状态表示中的此类词元。

（3）序列的各个部分之间存在逻辑中断。

例如，书的章节之间可能会有过渡存在，或者证券的熊市和牛市之间可能会有过渡存在。

RNN的表现 ：在这种情况下，没有办法来重置我们的内部状态表示。

LSTM和GRU的表现 ：在这种情况下，有一法来重置我们的内部状态表示。

2、LSTM和GRU能力相对占优的原理和机制

（1）GRU

支持隐状态的门控。这意味着模型有专门的机制来确定应该何时更新隐状态，以及应该何时重置隐状态。这些机制是可学习的，并且能够解决了上面列出的问题。例如，如果第一个词元非常重要，模型将学会在第一次观测之后不更新隐状态。同样，模型也可以学会跳过不相关的临时观测。最后，模型还将学会在需要的时候重置隐状态。

下面具体讨论各类门控的作用。

重置门有助于捕获序列中的短期依赖关系。

更新门有助于捕获序列中的长期依赖关系。

重置门的数学表达式：

对于给定的时间步，假设输入是一个小批量（样本数，输入数），前一个时间步的隐状态是（隐藏单元数）。

那么，重置门和更新门的计算方式如下所示：

其中，、、和是权重参数，，是偏置参数。表示sigmoid函数，将输入值转换到区间（0,1）内。

将重置门与常规隐状态更新机制集成，得到时间步的候选隐状态：

。

候选隐状态结合更新门，形成新的隐状态：

。

每当更新门接近1时，模型就倾向只保留旧状态。此时，来自的信息基本上被忽略，从而有效地跳过了依赖链条中的时间步。相反，当接近0时，新的隐状态就会接近候选隐状态。这些设计可以帮助我们处理循环神经网络中的梯度消失问题，并更好地捕获时间步距离很长的序列的依赖关系。例如，如果整个子序列的所有时间步的更新门都接近于1，则无论序列的长度如何，在序列起始时间步的旧隐状态都将很容易保留并传递到序列结束。

上一篇：SecureCRT连接vmware虚拟机的centos系统配置

下一篇：用radis扩展websockets服务

热门推荐

01全球最强模型Grok4，国内已可免费使用！（附教程）02KGG转MP3工具|非KGM文件|解密音频 03Coze扣子平台完整体验和实践（附国内和国际版对比）04使用Ruby接入实时行情API教程 05集群聊天服务器---MySQL数据库的建立 06扣子（coze）实战|我用扣子搭建了一个自动分析小红薯笔记内容的AI应用|详细步骤拆解 07身弱武修法：玄之又玄，奇妙之门 08基于odoo17的设计模式详解---单例模式 09DeepSeek各版本说明与优缺点分析 10基于uni-app的书法学习管理小程序的设计与实现