lstm基础知识

lstm前言

LSTM(Long short-term memory)通过刻意的设计来避免长期依赖问题,是一种特殊的RNN。长时间记住信息实际上是 LSTM 的默认行为,而不是需要努力学习的东西!

在标准的RNN中,这个重复模块具有非常简单的结构,例如只有单个tanh层,如下图所示。

LSTM具有同样的结构,但是重复的模块拥有不同的结构,如下图所示。与RNN的不同,这里有四个网络层,并且以一种非常特殊的方式进行交互。

公式推导

三个门的作用

ft门的作用是选择性遗忘部分记忆,it门决定了新的知识有哪些需要被记住,意思就是对新知识进行取舍,g(新的记忆单元)根据当前的输入和前一个隐藏状态计算出来的一个潜在的新记忆。它本身并不决定新信息是否要存入细胞状态,而只是提供了一种可能的输入。ot门决定了输出哪些新的知识。

总结

总结:我刚考完高等数学,下一门考线性代数,首先通过遗忘门,进行选择性遗忘旧的知识,然后通过更新门,将旧的知识和已经学习的新的知识进行整合。形成目前所学到的全部知识,然后和输出门进行结合,转化成考试的能力,也就是记住线性代数所要考察的考点,最后输出考试所得的分数。

相关推荐
JJJJ_iii几秒前
【深度学习03】神经网络基本骨架、卷积、池化、非线性激活、线性层、搭建网络
网络·人工智能·pytorch·笔记·python·深度学习·神经网络
sensen_kiss4 分钟前
INT301 Bio-computation 生物计算(神经网络)Pt.1 导论与Hebb学习规则
人工智能·神经网络·学习
mwq301238 分钟前
GPT系列模型演进:从GPT-1到GPT-4o的技术突破与差异解析
人工智能
JJJJ_iii9 分钟前
【深度学习05】PyTorch:完整的模型训练套路
人工智能·pytorch·python·深度学习
mwq3012322 分钟前
AI的“物理学”:揭秘GPT-3背后改变一切的“缩放定律”
人工智能
DP+GISer30 分钟前
自己制作遥感深度学习数据集进行遥感深度学习地物分类-试读
人工智能·深度学习·分类
victory043133 分钟前
TODO 分类任务指标计算和展示 准确率 F1 Recall
人工智能·机器学习·分类
rengang6633 分钟前
07-逻辑回归:分析用于分类问题的逻辑回归模型及其数学原理
人工智能·算法·机器学习·分类·逻辑回归
居7然1 小时前
京东开源王炸!JoyAgent-JDGenie如何重新定义智能体开发?
人工智能·开源·大模型·mcp