长短期记忆网络(LSTM)入门

背景

普通 RNN 每次只根据当前输入和前一时刻隐藏状态更新,但这样会导致:

1、信息在时间上被反复乘以梯度矩阵,容易 梯度消失/爆炸;

2、记忆"短期"依赖不错,但"长期"记忆难以保留。

LSTM 的核心思想是 引入"细胞状态 " ,让网络有一条可以"长期传递信息"的路径,并通过三个门有选择地更新记忆。

LSTM 的核心结构

每个 LSTM 单元有:

一个 输入门(input gate) 决定写入多少新信息

一个 遗忘门(forget gate)决定丢弃多少旧信息

一个 输出门(output gate)决定输出多少当前记忆

一个 细胞状态(cell state)

相关推荐
小和尚同志8 小时前
AI 自动化测试探索(二):Chrome-devtools MCP
人工智能·e2e·aigc
冬奇Lab10 小时前
Workflow 系列(02):设计范式——四层架构、三种 Context 传递模式与确认门设计
人工智能·agent·工作流引擎
冬奇Lab10 小时前
每日一个开源项目(第145篇):Trellis - 把项目记忆、规范和任务上下文持久化进代码仓库
人工智能·开源·资讯
有道AI情报局10 小时前
Harness即产品
人工智能·agent
罗西的思考11 小时前
机器人 / 强化学习】HIL-SERL:人类在环驱动的具身智能进化框架
人工智能·算法·机器学习
IT_陈寒12 小时前
SpringBoot自动配置的坑,我的API突然就404了
前端·人工智能·后端
笃行35013 小时前
从零到上线:用 EdgeOne Makers + CodeBuddy 搭一个「对账核对员」AI Agent
人工智能
用户68563262086913 小时前
Claude Code 乱猜字段名?我给它写了一个"数据库查询约束 Skill"
人工智能
你_好13 小时前
# 给你的产品嵌入一个「会操作界面的 AI 助手」
人工智能
ShallWeL13 小时前
【机器学习】(3)—— 线性回归:梯度下降
人工智能·机器学习