跟李沐学AI:长短期记忆网络LSTM

输入们、遗忘门和输出门

LSTM引入输入门、忘记门和输出门

输入门计算公式为:

遗忘门计算公式为:

输出门计算公式为:

它们由三个具有sigmoid激活函数的全连接层处理, 以计算输入门、遗忘门和输出门的值。 因此,这三个门的值都在(0,1)的范围内。

候选记忆元

类似RNN中的,计算公式为:

记忆元

LSTM中,输入门和遗忘门类似GRU中控制输入或遗忘的机制。输入们用于控制采用多少来自的新数据,遗忘门用于控制保留多少过去的记忆元的内容。随后按元素乘法,得出

如果遗忘门始终为1且输入门始终为0, 则过去的记忆元Ct−1 将随时间被保存并传递到当前时间步。 引入这种设计是为了缓解梯度消失问题, 并更好地捕获序列中的长距离依赖关系。

隐状态

LSTM中,输出门用于计算隐状态:。只要输出门接近1,我们就能够有效地将所有记忆信息传递给预测部分, 而对于输出门接近0,我们只保留记忆元内的所有信息,而不需要更新隐状态。

相关推荐
小鸡吃米…9 分钟前
机器学习中的回归分析
人工智能·python·机器学习·回归
程序新视界16 分钟前
为什么不建议基于Multi-Agent来构建Agent工程?
人工智能·后端·agent
AI360labs_atyun22 分钟前
上海打出“开源”国际牌!2025重磅新政
人工智能·科技·学习·ai·开源
沛沛老爹22 分钟前
Java泛型擦除:原理、实践与应对策略
java·开发语言·人工智能·企业开发·发展趋势·技术原理
Deepoch24 分钟前
Deepoc具身模型:破解居家机器人“需求理解”难题
大数据·人工智能·机器人·具身模型·deepoc
AiTop10037 分钟前
英伟达Rubin芯片提前量产,物理AI“ChatGPT 时刻” 降临
人工智能·chatgpt
阿正的梦工坊1 小时前
Git Rebase 是什么?为什么需要它?
人工智能·git
檐下翻书1731 小时前
法律文书自动生成与逻辑校验
人工智能
de之梦-御风1 小时前
【深度学习】模型从训练完成到产线运行的完整使用方式
人工智能·深度学习
Java后端的Ai之路1 小时前
【人工智能领域】-YOLO目标检测算法全解析(含大白话解释)
人工智能·yolo·目标检测·cnn