长短期记忆网络(LSTM)入门

背景

普通 RNN 每次只根据当前输入和前一时刻隐藏状态更新,但这样会导致:

1、信息在时间上被反复乘以梯度矩阵,容易 梯度消失/爆炸;

2、记忆"短期"依赖不错,但"长期"记忆难以保留。

LSTM 的核心思想是 引入"细胞状态 " ,让网络有一条可以"长期传递信息"的路径,并通过三个门有选择地更新记忆。

LSTM 的核心结构

每个 LSTM 单元有:

一个 输入门(input gate) 决定写入多少新信息

一个 遗忘门(forget gate)决定丢弃多少旧信息

一个 输出门(output gate)决定输出多少当前记忆

一个 细胞状态(cell state)

相关推荐
pp起床几秒前
Gen_AI 第四课 模型评估
人工智能
木非哲2 分钟前
机器学习--从“三个臭皮匠”到 XGBoost:揭秘 Boosting 算法的“填坑”艺术
算法·机器学习·boosting
zhangshuang-peta2 分钟前
人工智能代理团队在软件开发中的协同机制
人工智能·ai agent·mcp·peta
love you joyfully2 分钟前
告别“人多力量大”误区:看AI团队如何通过奖励设计实现协作韧性
人工智能·深度学习·神经网络·多智能体
2501_945318495 分钟前
AI证书避雷,需认准官方资质与行业口碑两大核心
人工智能
方见华Richard5 分钟前
世毫九“量子原住民”教育理念完整框架
人工智能·交互·学习方法·原型模式·空间计算
一切尽在,你来6 分钟前
1.3 环境搭建
人工智能·ai·langchain·ai编程
njsgcs7 分钟前
agentscope 调用vlm
人工智能
happyprince11 分钟前
2026年02月08日热门论文
人工智能·深度学习·计算机视觉
七牛云行业应用12 分钟前
1M上下文腐烂?实测Opus 4.6 vs GPT-5.3及MoA降本架构源码
人工智能·python·llm·架构设计·gpt-5·claude-opus