超简单理解LSTM和GRU模型

目录

RNN在反向传播时容易遭受梯度消失的问题,而梯度是用于更新神经网络权重的关键因子,梯度消失描述的是梯度在时间序列反向传播中逐渐减小的情况。

若梯度过小,它对于网络的学习贡献甚微。结果是,在RNN中,梯度更新很小的层级,并不能有效的学习。

RNN 容易遗忘较长序列中的信息,从而只留下短期记忆。

LSTM 和 GRU 正是为了解决短期记忆而设计的。

而LSTM的核心概念是它们的单元状态和各种门。

细胞状态如同一条信息告诉通道,持续传递至整个序列中,它可被视作网络的记忆中心。




参考资料

1\] [超简单理解LSTM和GRU模型,深度学习入门](https://www.bilibili.com/video/BV1EP411Y74W/?spm_id_from=333.337.search-card.all.click&vd_source=b5e395daf1dc59fb72b2633affa96661) 2023.8

相关推荐
woshihonghonga18 分钟前
Ubuntu20.04下的Pytorch2.7.1安装
linux·人工智能·ubuntu
字节高级特工21 分钟前
网络协议分层与Socket编程详解
linux·服务器·开发语言·网络·c++·人工智能·php
用户51914958484531 分钟前
UiPath推出全新AI代理开发功能,简化自动化构建流程
人工智能·aigc
xier_ran35 分钟前
神经网络中优化器的作用
人工智能
雲_kumo1 小时前
深度学习入门:从神经网络基础到模型训练优化
人工智能·深度学习·神经网络
东方芷兰1 小时前
LLM 笔记 —— 02 大语言模型能力评定
人工智能·笔记·python·神经网络·语言模型·自然语言处理·cnn
小苑同学1 小时前
联邦大型语言模型、多智能体大型语言模型是什么?
人工智能·语言模型·自然语言处理
小蝙蝠侠1 小时前
安德烈·卡帕西:深入探索像ChatGPT这样的大语言模型内容列表
人工智能·算法·机器学习
安娜的信息安全说1 小时前
Ollama 使用详解:本地部署大语言模型的指南
人工智能·ai·语言模型·ollama
渡我白衣2 小时前
C++20 协程:在 AI 推理引擎中的深度应用
大数据·人工智能·c++20