LSTM结构原理

什么是LSTM

LSTM(长短时记忆)网络是一种特殊的RNN网络,通过门结构,对细胞状态进行删除或者添加信息。门能够选择性的决定让哪些信息通过,其中们结构通过sigmoid曾和一个点乘操作来实现。

LSTM能够处理文本数据或者时序数据。

LSTM 解决了什么问题

LSTM的门结构能够选择性的记忆或者忘记信息,有效避免了梯度消失问题,并保持了长期记忆的能力。

LSTM的实现原理

门的实现

通过Sigmoid层和一个点乘操作的组合,sigmoid函数输出的结构在0-1之间。

1、遗忘门(forget gate)

遗忘门f:决定遗忘多少前一时刻的记忆

为一个向量(与h 、c有相同的维度)。

  • C表示长期记忆
  • h(t-1)表示上一时刻网络状态,h(t)表示当前时刻网络状态;
    遗忘门的权重和当前时刻的状态输入xt拼接上一个时刻的网络状态h(t-1)相乘,再经过sigmoid函数得到ft(值为0-1之间)

2、输入门(input gate)

输入门:决定要记住多少当前输入信息,同时结合遗忘门的输出,计算出新的记忆单元状态。

Ct^表示短时记忆

更新Ct

通过遗忘门和输入门的向量更新Ct

3、输出门(output gate)

输出门:决定哪些值流出

更新输出

状态ht:LSTM的输出,通过ot计算多少长期记忆用于LSTM的输出。

整体流程

LSTM结构中包含:遗忘门、输入门、输出门。图中上方的传输带传递的是长期记忆。

  • 遗忘门计算当前输入向量xt与前一时刻的记忆向量h(t-1)拼接的向量与遗忘门权重向量wf相乘,经过sigmoid激活函数得到ft向量。根据上一个时刻的输出与当前时刻的输入选择需要在单元状态中遗忘的状态。
  • 输入门计算两部分信息,第一部分记住多少当前输入信息,第二部分计算遗忘门输出的信息,结合两部分计算新的记忆单元。根据上一个状态输出和当前输入选择需要在单元状态中新记忆的状态。
  • 输出门计算记忆单元中多少内容作为LSTM 的输出。根据单元状态和当前输入决定LSTM的输出

遗忘门、输入门、输出门中输入门包含两个参数,其他门各包含一个参数。维度是(h, h+x)


感谢:https://www.bilibili.com/video/BV1i44y1P7J5?spm_id_from=333.788.player.switch&vd_source=91cfed371d5491e2973d221d250b54ae

相关推荐
foenix66几秒前
我的第一个 Vibe Coding 项目:我做了一个能自动剪视频、写字幕、配音、生成文案的 AI 工作流
人工智能·音视频
新缸中之脑19 分钟前
Unsloth Studio:一键微调LLM
人工智能
2301_7665586520 分钟前
本地部署+云端优化:矩阵跃动龙虾机器人,实现7×24小时AI获客无人值守
人工智能·矩阵·机器人
动物园猫20 分钟前
蜜蜂目标检测数据集(7000张图片已标注划分)AI训练适用于目标检测任务
人工智能·目标检测·计算机视觉
未来之窗软件服务20 分钟前
阿里云 page-agent 核心逻辑梳理[AI人工智能(六十一)]—东方仙盟
人工智能·阿里云·云计算·仙盟创梦ide·东方仙盟
TroubleMakerQi21 分钟前
[虚拟机环境配置]07_Ubuntu中安装vscode教程
linux·人工智能·vscode·ubuntu
卡尔AI工坊26 分钟前
copilot更新:本地、背景、云;Claude、Codex
人工智能·经验分享·chatgpt·软件工程·copilot·ai编程
no_work30 分钟前
基于yolo深度学习的混凝土裂缝检测
人工智能·深度学习·yolo
brucelee18632 分钟前
Install OpenLM AI module management on Windows
人工智能·windows
武汉唯众智创35 分钟前
云计算大数据实训平台:从私有云到容器化的教学实现|原理+实操+踩坑+性能全解析
大数据·人工智能·云计算·云计算实训室·大数据实训室·职校云计算大数据实训室建设·职校实训室建设