lstm基础知识

lstm前言

LSTM(Long short-term memory)通过刻意的设计来避免长期依赖问题,是一种特殊的RNN。长时间记住信息实际上是 LSTM 的默认行为,而不是需要努力学习的东西!

在标准的RNN中,这个重复模块具有非常简单的结构,例如只有单个tanh层,如下图所示。

LSTM具有同样的结构,但是重复的模块拥有不同的结构,如下图所示。与RNN的不同,这里有四个网络层,并且以一种非常特殊的方式进行交互。

公式推导

三个门的作用

ft门的作用是选择性遗忘部分记忆,it门决定了新的知识有哪些需要被记住,意思就是对新知识进行取舍,g(新的记忆单元)根据当前的输入和前一个隐藏状态计算出来的一个潜在的新记忆。它本身并不决定新信息是否要存入细胞状态,而只是提供了一种可能的输入。ot门决定了输出哪些新的知识。

总结

总结:我刚考完高等数学,下一门考线性代数,首先通过遗忘门,进行选择性遗忘旧的知识,然后通过更新门,将旧的知识和已经学习的新的知识进行整合。形成目前所学到的全部知识,然后和输出门进行结合,转化成考试的能力,也就是记住线性代数所要考察的考点,最后输出考试所得的分数。

相关推荐
007tg2 小时前
从ChatGPT家长控制功能看AI合规与技术应对策略
人工智能·chatgpt·企业数据安全
Memene摸鱼日报2 小时前
「Memene 摸鱼日报 2025.9.11」腾讯推出命令行编程工具 CodeBuddy Code, ChatGPT 开发者模式迎来 MCP 全面支持
人工智能·chatgpt·agi
linjoe992 小时前
【Deep Learning】Ubuntu配置深度学习环境
人工智能·深度学习·ubuntu
先做个垃圾出来………3 小时前
残差连接的概念与作用
人工智能·算法·机器学习·语言模型·自然语言处理
AI小书房4 小时前
【人工智能通识专栏】第十三讲:图像处理
人工智能
fanstuck4 小时前
基于大模型的个性化推荐系统实现探索与应用
大数据·人工智能·语言模型·数据挖掘
多看书少吃饭5 小时前
基于 OpenCV 的眼球识别算法以及青光眼算法识别
人工智能·opencv·计算机视觉
一条数据库5 小时前
南京方言数据集|300小时高质量自然对话音频|专业录音棚采集|方言语音识别模型训练|情感计算研究|方言保护文化遗产数字化|语音情感识别|方言对话系统开发
人工智能·音视频·语音识别
Yingjun Mo5 小时前
1. 统计推断-基于神经网络与Langevin扩散的自适应潜变量建模与优化
人工智能·神经网络·算法·机器学习·概率论