跟着StatQuest学知识08-RNN与LSTM

一、RNN

(一)简介

整个过程权重和偏置共享。

(二)梯度爆炸问题

在这个例子中w2大于1,会出现梯度爆炸问题。

当我们循环的次数越来越多的时候,这个巨大的数字会进入某些梯度,步长就会大幅增加 ,导致寻找最佳参数困难。另外会导致第一个输入的值影响越来越显著

(三)梯度消失问题

在这个例子中w2小于1,会出现梯度消失问题。

当我们循环的次数越来越多的时候,这个非常的数字会进入某些梯度,步长就会大幅减小,导致寻找最佳参数困难。

二、长短期记忆网络LSTM

(一)主要思想

不使用相同的反馈环连接,通过很久以前的事情和昨天的事情进行预测。而是使用两条独立的路径来对明天预测,一条用于长期记忆,另一条用于短期记忆。

(二)Sigmoid激活函数

(三)Tanh激活函数

(四)原理

第一阶段**"遗忘门"** :确定记住旧长期记忆的百分比,得出长期记忆值。

第二阶段:"输入门"

右边模块:将短期记忆和输入结合(权重×数值),创建潜在的长期记忆。旧长期记忆+潜在的长期记忆 = 新的长期记忆

左边模块:确定这个潜在记忆中的权重。

第三阶段**"输出门"** :更新短期记忆。( 新长期通过激活函数计算潜在短期数值,再×权重 = 新的短期记忆)

具体表现请看:【官方双语】LSTM(长短期记忆神经网络)最简单清晰的解释来了! 第14:30处。

为什么通过LSTM能解决梯度爆炸和梯度消失的问题?

相关推荐
买了一束花1 小时前
二、机器学习中Python变量基础
开发语言·python·机器学习·conda
-曾牛1 小时前
探索 Spring AI 的 ChatClient API:构建智能对话应用的利器
java·人工智能·spring boot·后端·spring·springai·ai指南
青橘MATLAB学习1 小时前
机器学习中的学习率及其衰减方法全面解析
人工智能·机器学习·梯度下降·超参数优化·学习率·衰减方法·模型收敛
乌旭2 小时前
AIGC算力消耗白皮书:Stable Diffusion vs Midjourney的架构成本差异
人工智能·深度学习·stable diffusion·架构·aigc·midjourney·gpu算力
令狐少侠20112 小时前
ai之paddleOCR 识别PDF python312和paddle版本冲突 GLIBCXX_3.4.30
人工智能·pdf·paddle
乌旭2 小时前
算力经济模型研究:从云计算定价到去中心化算力市场设计
人工智能·深度学习·云计算·去中心化·区块链·gpu算力·risc-v
lilye663 小时前
精益数据分析(31/126):电商关键指标深度解析与实战策略
大数据·人工智能·数据分析
南玖yy3 小时前
全感官交互革命:当 AI 大模型学会 “看、听、说、创”
人工智能·交互
Amctwd3 小时前
【工具】Open WebUI:本地化部署的AI交互平台
网络·人工智能
程序员阿龙3 小时前
基于深度学习农作物叶部病害实时检测系统研究(源码+定制+开发)
人工智能·深度学习