长短期记忆网络(LSTM)入门

背景

普通 RNN 每次只根据当前输入和前一时刻隐藏状态更新,但这样会导致:

1、信息在时间上被反复乘以梯度矩阵,容易 梯度消失/爆炸;

2、记忆"短期"依赖不错,但"长期"记忆难以保留。

LSTM 的核心思想是 引入"细胞状态 " ,让网络有一条可以"长期传递信息"的路径,并通过三个门有选择地更新记忆。

LSTM 的核心结构

每个 LSTM 单元有:

一个 输入门(input gate) 决定写入多少新信息

一个 遗忘门(forget gate)决定丢弃多少旧信息

一个 输出门(output gate)决定输出多少当前记忆

一个 细胞状态(cell state)

相关推荐
undsky_21 小时前
【n8n教程】:Luxon日期时间处理,打造智能时间自动化工作流
人工智能·ai·aigc·ai编程
Surmon21 小时前
基于 Cloudflare 生态的 AI Agent 实现
前端·人工智能·架构
冷小鱼1 天前
pgvector 向量数据库完全指南:PostgreSQL 生态的 AI 增强
数据库·人工智能·postgresql
陈天伟教授1 天前
人工智能应用- 天文学家的助手:08. 星系定位与分类
前端·javascript·数据库·人工智能·机器学习
啵啵鱼爱吃小猫咪1 天前
机械臂阻抗控制github项目-mujoco仿真
开发语言·人工智能·python·机器人
放下华子我只抽RuiKe51 天前
算法的试金石:模型训练、评估与调优的艺术
人工智能·深度学习·算法·机器学习·自然语言处理·数据挖掘·线性回归
songyuc1 天前
【PyTorch】感觉`CrossEntropyLoss`和`BCELoss`很类似,为什么它们接收labels的shape常常不一样呢?
人工智能·pytorch·python
renhongxia11 天前
如何对海洋系统进行知识图谱构建?
人工智能·学习·语言模型·自然语言处理·自动化·知识图谱
会一点点设计1 天前
2026年设计趋势:当AI遇见人性,不完美成为新美学
人工智能