跟着StatQuest学知识08-RNN与LSTM

一、RNN

(一)简介

整个过程权重和偏置共享。

(二)梯度爆炸问题

在这个例子中w2大于1,会出现梯度爆炸问题。

当我们循环的次数越来越多的时候,这个巨大的数字会进入某些梯度,步长就会大幅增加 ,导致寻找最佳参数困难。另外会导致第一个输入的值影响越来越显著

(三)梯度消失问题

在这个例子中w2小于1,会出现梯度消失问题。

当我们循环的次数越来越多的时候,这个非常的数字会进入某些梯度,步长就会大幅减小,导致寻找最佳参数困难。

二、长短期记忆网络LSTM

(一)主要思想

不使用相同的反馈环连接,通过很久以前的事情和昨天的事情进行预测。而是使用两条独立的路径来对明天预测,一条用于长期记忆,另一条用于短期记忆。

(二)Sigmoid激活函数

(三)Tanh激活函数

(四)原理

第一阶段**"遗忘门"** :确定记住旧长期记忆的百分比,得出长期记忆值。

第二阶段:"输入门"

右边模块:将短期记忆和输入结合(权重×数值),创建潜在的长期记忆。旧长期记忆+潜在的长期记忆 = 新的长期记忆

左边模块:确定这个潜在记忆中的权重。

第三阶段**"输出门"** :更新短期记忆。( 新长期通过激活函数计算潜在短期数值,再×权重 = 新的短期记忆)

具体表现请看:【官方双语】LSTM(长短期记忆神经网络)最简单清晰的解释来了! 第14:30处。

为什么通过LSTM能解决梯度爆炸和梯度消失的问题?

相关推荐
lijianhua_97121 小时前
国内某顶级大学内部用的ai自动生成论文的提示词
人工智能
EDPJ1 小时前
当图像与文本 “各说各话” —— CLIP 中的模态鸿沟与对象偏向
深度学习·计算机视觉
蔡俊锋1 小时前
用AI实现乐高式大型可插拔系统的技术方案
人工智能·ai工程·ai原子能力·ai乐高工程
自然语1 小时前
人工智能之数字生命 认知架构白皮书 第7章
人工智能·架构
大熊背1 小时前
利用ISP离线模式进行分块LSC校正的方法
人工智能·算法·机器学习
eastyuxiao2 小时前
如何在不同的机器上运行多个OpenClaw实例?
人工智能·git·架构·github·php
诸葛务农2 小时前
AGI 主要技术路径及核心技术:归一融合及未来之路5
大数据·人工智能
光影少年2 小时前
AI Agent智能体开发
人工智能·aigc·ai编程
ai生成式引擎优化技术2 小时前
TSPR-WEB-LLM-HIC (TWLH四元结构)AI生成式引擎(GEO)技术白皮书
人工智能
帐篷Li2 小时前
9Router:开源AI路由网关的架构设计与技术实现深度解析
人工智能