lstm基础知识

lstm前言

LSTM(Long short-term memory)通过刻意的设计来避免长期依赖问题,是一种特殊的RNN。长时间记住信息实际上是 LSTM 的默认行为,而不是需要努力学习的东西!

在标准的RNN中,这个重复模块具有非常简单的结构,例如只有单个tanh层,如下图所示。

LSTM具有同样的结构,但是重复的模块拥有不同的结构,如下图所示。与RNN的不同,这里有四个网络层,并且以一种非常特殊的方式进行交互。

公式推导

三个门的作用

ft门的作用是选择性遗忘部分记忆,it门决定了新的知识有哪些需要被记住,意思就是对新知识进行取舍,g(新的记忆单元)根据当前的输入和前一个隐藏状态计算出来的一个潜在的新记忆。它本身并不决定新信息是否要存入细胞状态,而只是提供了一种可能的输入。ot门决定了输出哪些新的知识。

总结

总结:我刚考完高等数学,下一门考线性代数,首先通过遗忘门,进行选择性遗忘旧的知识,然后通过更新门,将旧的知识和已经学习的新的知识进行整合。形成目前所学到的全部知识,然后和输出门进行结合,转化成考试的能力,也就是记住线性代数所要考察的考点,最后输出考试所得的分数。

相关推荐
诗酒当趁年华3 分钟前
【NLP实践】三、LLM搭建中文知识库:提供RestfulAPI服务
人工智能·自然语言处理
SHIPKING3932 小时前
【机器学习&深度学习】制作数据集
人工智能
Ronin-Lotus7 小时前
深度学习篇---剪裁&缩放
图像处理·人工智能·缩放·剪裁
cpsvps8 小时前
3D芯片香港集成:技术突破与产业机遇全景分析
人工智能·3d
国科安芯8 小时前
抗辐照芯片在低轨卫星星座CAN总线通讯及供电系统的应用探讨
运维·网络·人工智能·单片机·自动化
AKAMAI8 小时前
利用DataStream和TrafficPeak实现大数据可观察性
人工智能·云原生·云计算
Ai墨芯1119 小时前
深度学习水论文:特征提取
人工智能·深度学习
无名工程师9 小时前
神经网络知识讨论
人工智能·神经网络
nbsaas-boot9 小时前
AI时代,我们更需要自己的开发方式与平台
人工智能
SHIPKING3939 小时前
【机器学习&深度学习】LLamaFactory微调效果与vllm部署效果不一致如何解决
人工智能·深度学习·机器学习