跟着StatQuest学知识08-RNN与LSTM

一、RNN

(一)简介

整个过程权重和偏置共享。

(二)梯度爆炸问题

在这个例子中w2大于1,会出现梯度爆炸问题。

当我们循环的次数越来越多的时候,这个巨大的数字会进入某些梯度,步长就会大幅增加 ,导致寻找最佳参数困难。另外会导致第一个输入的值影响越来越显著

(三)梯度消失问题

在这个例子中w2小于1,会出现梯度消失问题。

当我们循环的次数越来越多的时候,这个非常的数字会进入某些梯度,步长就会大幅减小,导致寻找最佳参数困难。

二、长短期记忆网络LSTM

(一)主要思想

不使用相同的反馈环连接,通过很久以前的事情和昨天的事情进行预测。而是使用两条独立的路径来对明天预测,一条用于长期记忆,另一条用于短期记忆。

(二)Sigmoid激活函数

(三)Tanh激活函数

(四)原理

第一阶段**"遗忘门"** :确定记住旧长期记忆的百分比,得出长期记忆值。

第二阶段:"输入门"

右边模块:将短期记忆和输入结合(权重×数值),创建潜在的长期记忆。旧长期记忆+潜在的长期记忆 = 新的长期记忆

左边模块:确定这个潜在记忆中的权重。

第三阶段**"输出门"** :更新短期记忆。( 新长期通过激活函数计算潜在短期数值,再×权重 = 新的短期记忆)

具体表现请看:【官方双语】LSTM(长短期记忆神经网络)最简单清晰的解释来了! 第14:30处。

为什么通过LSTM能解决梯度爆炸和梯度消失的问题?

相关推荐
猫头虎9 分钟前
如何利用海外 NetNut 网络代理与 AICoding 实战获取 iPhone 17 新品用户评论数据?
网络·人工智能·计算机网络·网络安全·ios·网络攻击模型·iphone
stbomei13 分钟前
2025 AI 产业:技术趋势、伦理治理与生态重构
人工智能·重构
nju_spy14 分钟前
计算机视觉 - 物体检测(二)单阶段:YOLO系列 + SSD
人工智能·yolo·目标检测·计算机视觉·ssd·r-cnn·端到端检测
yueyuebaobaoxinx22 分钟前
2025 年 AI 智能体(Agent)发展全景:技术突破、场景落地与产业重构
人工智能·重构
云道轩23 分钟前
初次尝试在kubernetes 1.31 上安装 人工智能模型运行平台 llm-d
人工智能·kubernetes·llm-d
深蓝易网32 分钟前
3C电子企业柔性制造转型:如何通过MES管理系统实现快速换线与弹性生产?
大数据·运维·人工智能·重构·制造
ChinaRainbowSea42 分钟前
5. Prompt 提示词
java·人工智能·后端·spring·prompt·ai编程
IT_陈寒1 小时前
Vue3性能优化实战:这5个技巧让我的应用加载速度提升70%
前端·人工智能·后端
机器人行业研究员1 小时前
蓝点触控:力觉是机器人“稳不稳、准不准”的关键
人工智能·机器人
央链知播1 小时前
王玉真:可信资产与数链金融的核心根基——构建全链路可信信用体系
人工智能·金融·重构·web3·区块链·业界资讯