长短期记忆网络(LSTM)入门

背景

普通 RNN 每次只根据当前输入和前一时刻隐藏状态更新,但这样会导致:

1、信息在时间上被反复乘以梯度矩阵,容易 梯度消失/爆炸;

2、记忆"短期"依赖不错,但"长期"记忆难以保留。

LSTM 的核心思想是 引入"细胞状态 " ,让网络有一条可以"长期传递信息"的路径,并通过三个门有选择地更新记忆。

LSTM 的核心结构

每个 LSTM 单元有:

一个 输入门(input gate) 决定写入多少新信息

一个 遗忘门(forget gate)决定丢弃多少旧信息

一个 输出门(output gate)决定输出多少当前记忆

一个 细胞状态(cell state)

相关推荐
沈浩(种子思维作者)1 天前
铁的居里点(770度就不被磁铁吸了)道理是什么?能不能精确计算出来?
人工智能·python·flask·量子计算
沛沛老爹1 天前
Web开发者转型AI:多模态Agent视频分析技能开发实战
前端·人工智能·音视频
张小凡vip1 天前
数据挖掘(九) --Anaconda 全面了解与安装指南
人工智能·数据挖掘
zhangfeng11331 天前
Ollama 支持模型微调但是不支持词库,支持RAG,go语言开发的大模型的推理应用,
人工智能·深度学习·golang
格林威1 天前
Baumer相机铆钉安装状态检测:判断铆接是否到位的 5 个核心算法,附 OpenCV+Halcon 的实战代码!
人工智能·opencv·算法·计算机视觉·视觉检测·工业相机·堡盟相机
李昊哲小课1 天前
OpenCV Haar级联分类器人脸检测完整教程
人工智能·opencv·计算机视觉
hit56实验室1 天前
【易经系列】用六:利永贞。
人工智能
困死了11111 天前
KAG: Boosting LLMs in Professional Domains viaKnowledge Augmented Generation
机器学习
星爷AG I1 天前
9-22 目标跟踪(AGI基础理论)
人工智能·agi
m0_603888711 天前
FineInstructions Scaling Synthetic Instructions to Pre-Training Scale
人工智能·深度学习·机器学习·ai·论文速览