长短期记忆网络(LSTM)入门

背景

普通 RNN 每次只根据当前输入和前一时刻隐藏状态更新,但这样会导致:

1、信息在时间上被反复乘以梯度矩阵,容易 梯度消失/爆炸;

2、记忆"短期"依赖不错,但"长期"记忆难以保留。

LSTM 的核心思想是 引入"细胞状态 " ,让网络有一条可以"长期传递信息"的路径,并通过三个门有选择地更新记忆。

LSTM 的核心结构

每个 LSTM 单元有:

一个 输入门(input gate) 决定写入多少新信息

一个 遗忘门(forget gate)决定丢弃多少旧信息

一个 输出门(output gate)决定输出多少当前记忆

一个 细胞状态(cell state)

相关推荐
GISer_Jing10 分钟前
AI Agent 目标设定与异常处理
人工智能·设计模式·aigc
Fnetlink114 分钟前
AI+零信任:关键基础设施安全防护新范式
人工智能·安全
njsgcs17 分钟前
SIMA2 论文阅读 Google 任务设定器、智能体、奖励模型
人工智能·笔记
机器之心26 分钟前
2026年,大模型训练的下半场属于「强化学习云」
人工智能·openai
ai_top_trends31 分钟前
2026 年工作计划 PPT 横评:AI 自动生成的优劣分析
人工智能·python·powerpoint
踏浪无痕1 小时前
架构师如何学习 AI:三个月掌握核心能力的务实路径
人工智能·后端·程序员
闲看云起1 小时前
大模型应用开发框架全景图
人工智能·语言模型·ai编程
万行1 小时前
机器学习&第三章
人工智能·python·机器学习·数学建模·概率论
木卫四科技1 小时前
DocETL 入门:让非结构化数据处理变得简单智能
人工智能·木卫四
玖日大大1 小时前
OceanBase SeekDB:AI 原生数据库的技术革命与实践指南
数据库·人工智能·oceanbase