长短期记忆网络(LSTM)入门

背景

普通 RNN 每次只根据当前输入和前一时刻隐藏状态更新,但这样会导致:

1、信息在时间上被反复乘以梯度矩阵,容易 梯度消失/爆炸;

2、记忆"短期"依赖不错,但"长期"记忆难以保留。

LSTM 的核心思想是 引入"细胞状态 " ,让网络有一条可以"长期传递信息"的路径,并通过三个门有选择地更新记忆。

LSTM 的核心结构

每个 LSTM 单元有:

一个 输入门(input gate) 决定写入多少新信息

一个 遗忘门(forget gate)决定丢弃多少旧信息

一个 输出门(output gate)决定输出多少当前记忆

一个 细胞状态(cell state)

相关推荐
努力也学不会java几秒前
【docker】Docker Register(镜像仓库)
运维·人工智能·机器学习·docker·容器
m0_650108241 分钟前
OLMo 2:全开放语言模型的技术突破与实践
论文阅读·人工智能·olmo 2·全开源多模态大模型·全链路开放·训练稳定性
Mintopia2 分钟前
🧠 AIGC技术标准制定:Web行业协同的必要性与难点
人工智能·前端框架·trae
轻竹办公PPT2 分钟前
AI一键生成年终总结PPT
人工智能·python·powerpoint
是Dream呀2 分钟前
昇腾平台 PyTorch 迁移实操:从环境搭建到精度达标的完整步骤
人工智能·pytorch·python·昇腾
Mintopia2 分钟前
🧩 Codex 配置自定义指令指南
人工智能·llm·claude
一个处女座的程序猿4 分钟前
AGI:《从规模扩张到研究驱动:Ilya Sutskever畅谈AI泛化瓶颈、人类学习启事与超级智能未来之路》
人工智能·llms·ilya sutskever
Dfreedom.5 分钟前
正则化全面解析:从过拟合防治到模型优化之道
深度学习·神经网络·机器学习·正则化·过拟合
工藤学编程8 分钟前
零基础学AI大模型之Milvus实战:Attu可视化安装+Python整合全案例
人工智能·python·milvus
V_156560272198 分钟前
第一批!2026年陕西省科技攻关项目申报时间条件程序
大数据·人工智能·科技