LSTM和GRU vs 普通的循环神经网络RNN

1、考虑下列三种情况下,对比一下普通RNN的表现和LSTM和GRU表现:

(1)早期观测值对预测未来观测者具有非常重要的意义。

考虑一个极端情况,其中第一个观测值包含一个校验和, 目标是在序列的末尾辨别校验和是否正确。 在这种情况下,第一个词元的影响至关重要。

RNN的表现:将不得不给这个观测值指定一个非常大的梯度, 因为它会影响所有后续的观测值。

LSTM和GRU的表现:提供某些机制能够在一个记忆元里存储重要的早期信息。

(2) 一些词元没有相关的观测值。

例如,在对网页内容进行情感分析时, 可能有一些辅助HTML代码与网页传达的情绪无关。

RNN的表现 :没有机制来跳过隐状态表示中的此类词元。

LSTM和GRU的表现 :有一些机制来跳过隐状态表示中的此类词元。

(3)序列的各个部分之间存在逻辑中断。

例如,书的章节之间可能会有过渡存在, 或者证券的熊市和牛市之间可能会有过渡存在。

RNN的表现 :在这种情况下,没有办法来重置我们的内部状态表示。

LSTM和GRU的表现 :在这种情况下,有一法来重置我们的内部状态表示。

2、LSTM和GRU能力相对占优的原理和机制

(1)GRU

支持隐状态的门控。 这意味着模型有专门的机制来确定应该何时更新隐状态, 以及应该何时重置隐状态。 这些机制是可学习的,并且能够解决了上面列出的问题。 例如,如果第一个词元非常重要, 模型将学会在第一次观测之后不更新隐状态。 同样,模型也可以学会跳过不相关的临时观测。 最后,模型还将学会在需要的时候重置隐状态。

下面具体讨论各类门控的作用。

重置门有助于捕获序列中的短期依赖关系。

更新门有助于捕获序列中的长期依赖关系。

重置门的数学表达式:

对于给定的时间步,假设输入是一个小批量(样本数,输入数),前一个时间步的隐状态是(隐藏单元数)。

那么,重置门和更新门的计算方式如下所示:

其中,是权重参数,是偏置参数。表示sigmoid函数,将输入值转换到区间(0,1)内。

将重置门与常规隐状态更新机制集成,得到时间步的候选隐状态

候选隐状态结合更新门,形成新的隐状态

每当更新门接近1时,模型就倾向只保留旧状态。 此时,来自的信息基本上被忽略, 从而有效地跳过了依赖链条中的时间步。 相反,当接近0时, 新的隐状态就会接近候选隐状态。 这些设计可以帮助我们处理循环神经网络中的梯度消失问题, 并更好地捕获时间步距离很长的序列的依赖关系。 例如,如果整个子序列的所有时间步的更新门都接近于1, 则无论序列的长度如何,在序列起始时间步的旧隐状态都将很容易保留并传递到序列结束。

相关推荐
机器学习之心16 分钟前
基于LSTM-Attention的轴承剩余寿命预测:从振动信号到RUL的端到端MATLAB实现
人工智能·matlab·lstm·轴承剩余寿命预测
bubiyoushang8882 天前
MATLAB递归神经网络(RNN)机器学习指南
rnn·神经网络·matlab
羊羊小栈6 天前
基于多时间序列模型和大语言模型的航海轨迹预测分析预警系统( LSTM、GRU、Transformer、CNN-LSTM、DLinear)
人工智能·语言模型·cnn·gru·毕业设计·lstm·transformer
z小猫不吃鱼7 天前
02 从 RNN 到 Transformer:为什么语言建模需要新结构?
人工智能·rnn·transformer
YUDAMENGNIUBI8 天前
day31_RNN及其变体
人工智能·rnn·深度学习
Yunzenn8 天前
深度分析字节最新研究cola-DLM第 06 章:分块因果 DiT 先验 —— 在隐空间里做 Flow Matching
人工智能·rnn·深度学习·神经网络·生成对抗网络·架构·transformer
机器学习之心8 天前
顶刊《KBS》算法应用,PIMO-Transformer-LSTM-ABKDE:投影迭代优化算法概率区间预测,报告+代码
算法·lstm·transformer·投影迭代优化算法
温柔只给梦中人8 天前
NLP学习:LSTM模型,GRU模型
学习·自然语言处理·lstm
MediaTea9 天前
AI 术语通俗词典:LSTM
人工智能·rnn·深度学习·神经网络·lstm
MediaTea9 天前
AI 术语通俗词典:GRU
人工智能·rnn·深度学习·gru