【Pytorch✨】LSTM01 入门

🪶 一、LSTM 是什么?

LSTM(Long Short-Term Memory)是一种特殊的循环神经网络(RNN),能够记住"过去的信息"并决定"哪些记住,哪些忘掉"。

它非常适合处理以下这种"时间有关"的任务:

  • 给一段文字,让模型猜下一个词
  • 给一段语音,让模型识别其中内容
  • 给一串气温数据,让模型预测明天的温度

🪶 二、为什么叫"长短期记忆"?

这个名字说明了它的最大特点:

含义
Long(长期) 能保留很久以前的有用信息,比如前面的一个关键词
Short(短期) 也能处理最近刚刚输入的信息
Memory(记忆) 就像人脑一样,记住或忘记信息有"策略"和"意图"

传统的 RNN 容易"忘掉"很久之前的信息,而 LSTM 通过"门控结构"克服了这个问题!


📥 三、LSTM 的输入/输出长什么样?

假设我们用 LSTM 来预测天气(气温),你有:

复制代码
数据: [21.0, 21.3, 21.8] → 想预测下一个值 22.0
输入 X 是形状为 [batch_size, seq_len, input_size] 的张量

可以理解成:一次给 LSTM 喂多少条序列,每条序列有多少时间步,每个时间步的输入有多少个特征

复制代码
例如:`[[[21.0], [21.3], [21.8]]]` → `[1, 3, 1]`
名称 含义 举例
batch_size 一次送入模型的"样本数量"(多少条数据) 10 表示一次训练 10 条序列
seq_len 每条序列的"时间步"长度(有几个输入) 5 表示每条数据是 5 天的气温
input_size 每个时间步包含几个"特征" 1 表示每步只输入一个数字(如温度)
输出 y 是下一个值,比如 [[22.0]]

🪶 四、LSTM 的内部结构(过程)

LSTM 的核心是 "三个门 + 一个细胞状态":

复制代码
          ┌─────────────────────────────┐
输入 →───►│ 1. 遗忘门(forget gate)     │  ← 过去记忆决定要忘掉多少
          └─────────────────────────────┘
          ┌─────────────────────────────┐
输入 →───►│ 2. 输入门(input gate)       │  ← 新信息能不能写入记忆
          └─────────────────────────────┘
          ┌─────────────────────────────┐
过去记忆 →│ 3. 输出门(output gate)      │──► 输出(隐状态)给下一步
          └─────────────────────────────┘

小结

作用
遗忘门 决定"旧记忆要不要保留"
输入门 决定"新输入要不要加入到记忆中"
输出门 决定"当前记忆要不要输出到下一个"

🪶 五、整体流程图

复制代码
时间步1     时间步2     时间步3
x₁ ─┬─► LSTM ─► h₁ ─┬─► LSTM ─► h₂ ─┬─► LSTM ─► h₃
     │               │               │
   c₁(记忆)      c₂(记忆)      c₃(记忆)

每个时间步都会:

  • 接收一个输入 xₜ
  • 接收前一个时间步的隐藏状态 hₜ₋₁ 和记忆状态 cₜ₋₁
  • 输出当前的隐藏状态 hₜ 和更新后的记忆 cₜ

相关推荐
OpenVINO 中文社区2 小时前
OpenVINO™正式进入 llama.cpp:GGUF 模型现已支持 Intel CPU、GPU 与 NPU
人工智能·openvino·英特尔
ZKNOW甄知科技2 小时前
数智同行:甄知科技2026年Q1季度回顾
运维·服务器·人工智能·科技·程序人生·安全·自动化
呆呆敲代码的小Y2 小时前
【Unity工具篇】| 游戏完整资源热更新流程,YooAsset官方示例项目
人工智能·游戏·unity·游戏引擎·热更新·yooasset·免费游戏
jikemaoshiyanshi2 小时前
B2B企业GEO服务商哪家好?深度解析径硕科技(JINGdigital)及其JINGEO产品为何是首选
大数据·运维·人工智能·科技
Lab_AI2 小时前
浩天药业携手创腾科技,开启研发数字化新篇章!电子实验记录本(ELN)落地浩天药业
人工智能
supericeice2 小时前
大模型建筑隐患管理方案怎么做?创邻科技用知识图谱、图数据库和企业AI大脑打通隐患问答、整改与推荐
人工智能·科技·知识图谱
蕤葳-2 小时前
非编程背景学习AI的方法
人工智能
北京耐用通信2 小时前
不换设备、不重写程序:耐达讯自动化网关如何实现CC-Link IE转Modbus TCP的高效互通?
人工智能·科技·物联网·网络协议·自动化·信息与通信
计算机毕业设计指导2 小时前
基于机器学习和深度学习的恶意WebURL检测系统实战详解
人工智能·深度学习·机器学习·网络安全
珂朵莉MM2 小时前
第七届全球校园人工智能算法精英大赛-算法巅峰赛产业命题赛第3赛季优化题--多策略混合算法
人工智能·算法