lstm基础知识

lstm前言

LSTM(Long short-term memory)通过刻意的设计来避免长期依赖问题,是一种特殊的RNN。长时间记住信息实际上是 LSTM 的默认行为,而不是需要努力学习的东西!

在标准的RNN中,这个重复模块具有非常简单的结构,例如只有单个tanh层,如下图所示。

LSTM具有同样的结构,但是重复的模块拥有不同的结构,如下图所示。与RNN的不同,这里有四个网络层,并且以一种非常特殊的方式进行交互。

公式推导

三个门的作用

ft门的作用是选择性遗忘部分记忆,it门决定了新的知识有哪些需要被记住,意思就是对新知识进行取舍,g(新的记忆单元)根据当前的输入和前一个隐藏状态计算出来的一个潜在的新记忆。它本身并不决定新信息是否要存入细胞状态,而只是提供了一种可能的输入。ot门决定了输出哪些新的知识。

总结

总结:我刚考完高等数学,下一门考线性代数,首先通过遗忘门,进行选择性遗忘旧的知识,然后通过更新门,将旧的知识和已经学习的新的知识进行整合。形成目前所学到的全部知识,然后和输出门进行结合,转化成考试的能力,也就是记住线性代数所要考察的考点,最后输出考试所得的分数。

相关推荐
lizhihai_991 分钟前
股市学习心得-AI 产业链核心标的梳理清单
大数据·服务器·人工智能·科技·学习
暮雪倾风5 分钟前
【AI】国内使用Claude Code,配置Claude Code,使用DeepSeek为例
人工智能
FrameNotWork12 分钟前
HarmonyOS6.1 AI 模型管理架构设计与最佳实践
人工智能·harmonyos
没事别瞎琢磨16 分钟前
十、统一 Runner 入口——能力检测与模式回退
人工智能·node.js
装不满的克莱因瓶18 分钟前
了解 LangChain 中的 LLM 与 ChatModel 的差异
人工智能·python·ai·langchain·llm·agent·chatmodel
dingzd9521 分钟前
跨境社媒运营越到后面 越比拼账号的表达稳定性
大数据·人工智能·矩阵·内容营销
云烟成雨TD23 分钟前
Spring AI 1.x 系列【54】Retry 机制分析
java·人工智能·spring
没事别瞎琢磨25 分钟前
八、环境隔离——构建安全的子进程环境
人工智能·node.js
手写码匠25 分钟前
从零实现 Prompt 工程引擎:结构化提示、自动优化与多轮自省体系
人工智能·深度学习·算法·aigc
甲维斯28 分钟前
Claude Fable5首测,GPT5.5和国产模型弱爆了!
人工智能