【机器学习】20. RNN - Recurrent Neural Networks 和 LSTM

1. RNN定义

  • 用于顺序数据

  • 文本数据是序列数据的一个例子

  • 句子是单词的序列------一个单词接另一个单词

  • 每个句子可能有不同数量的单词(长度可变)

  • 每个句子之间可能有长距离的依赖关系

  • rnn可以记住序列中较早的相关信息

  • RNN在每个时间点取序列中的1个元素。

  • 神经元在某一个时间点的输出,在下一个时间点(或另一个时间点)反馈给同一神经元

  • 结果:RNN对过去的激活有记忆(因此过去的输入促成了这些激活)

  • RNN可以捕获长距离依赖->对序列有用

2. 简单RNN

简单RNN含有由1个隐藏层构成的前馈神经网络, 这个隐藏层特别的, 含有一个记忆缓存, 会存储隐藏层之前一个时间步的状态. 在每一个时间步, 记忆缓存中的数据会和下一组输入结合作为隐藏层神经元的下一次输入.

  • unroll 图

图片来源:https://blog.csdn.net/v_JULY_v/article/details/89894058

RNN 会受到短时记忆的影响。如果一条序列足够长,那它们将很难将信息从较早的时间步传送到后面的时间步。

在递归神经网络中,获得小梯度更新的层会停止学习------ 那些通常是较早的层。 由于这些层不学习,RNN会忘记它在较长序列中以前看到的内容,因此RNN只具有短时记忆。

在反向传播过程中, 误差梯度会在每个时间步中与w_hh 多次相乘, 如果这些权重过小, 这种多次相乘会导致梯度逐渐变得非常小, 最终几乎消失

而梯度爆炸则是因为计算的难度越来越复杂导致。

LSTM,可以在一定程度上解决梯度消失和梯度爆炸这两个问题

3. LSTM

4张图,直接了解完LSTM

3.1. 忘记门

忘记门会读取上一个输出h_{t-1}和当前输入x_{t},做一个Sigmoid 的非线性映射,然后输出一个向量f_{t}

3.2. 输入门

3.3 细胞状态

3.4. 输出门

C 是细胞状态

相关推荐
月下倩影时7 分钟前
视觉进阶篇—— PyTorch 安装
人工智能·pytorch·python
普普通通的南瓜7 分钟前
网站提示 “不安全”?免费 SSL 证书一键解决
网络·数据库·网络协议·算法·安全·iphone·ssl
ThreeS_tones15 分钟前
ppo爬坡代码及解释
人工智能·深度学习
谅望者16 分钟前
数据分析笔记04:抽样方法与抽样分布
数据库·笔记·数据挖掘·数据分析
OpenBayes18 分钟前
教程上新丨Deepseek-OCR 以极少视觉 token 数在端到端模型中实现 SOTA
人工智能·深度学习·机器学习·ocr·大语言模型·文本处理·deepseek
啊吧怪不啊吧35 分钟前
二分查找算法介绍及使用
数据结构·算法·leetcode
知识搬运工人42 分钟前
对比 DeepSeek(MLA)、Qwen 和 Llama 系列大模型在 Attention 架构/算法层面的核心设计及理解它们的本质区别。
算法
蓝海星梦1 小时前
【论文笔记】R-HORIZON:重塑长周期推理评估与训练范式
论文阅读·人工智能·深度学习·自然语言处理·大型推理模型
da_vinci_x1 小时前
Substance 3D 材质流:AI 快速生成与程序化精修
人工智能·游戏·3d·材质·设计师·技术美术·游戏美术
aneasystone本尊1 小时前
重温 Java 21 之密钥封装机制 API
人工智能