LSTM——长短期记忆神经网络

目录

[1.LSTM 工作原理](#1.LSTM 工作原理)

2.LSTM的代码实现

3.代码详解


LSTM (Long Short-Term Memory)是一种特殊的循环神经网络 (RNN),用于解决长序列中的长期依赖问题。它通过引入门机制,控制信息的流入、保留和输出,从而在避免梯度消失或爆炸的情况下捕获较长序列的依赖关系。以下是LSTM的工作原理和代码实现


1.LSTM 工作原理

LSTM 通过引入 细胞状态(Cell State)门控单元(Gates) 来控制信息流动,具体包含以下几个部分:

  1. 遗忘门(Forget Gate)

    遗忘门决定了上一个时间步的细胞状态是否需要保留或遗忘。遗忘门通过一个 sigmoid 激活函数(输出在 0 和 1 之间)来控制。输入为当前输入 和上一个隐藏状态 ​:

  2. 输入门(Input Gate)

    输入门决定当前时间步的新信息是否要更新到细胞状态中。它包含两个部分:

    • :用于选择要添加的新信息。
    • :候选细胞状态,通过 tanh 函数生成可能的新状态信息。

  3. 细胞状态更新

    细胞状态结合了遗忘门和输入门的输出来更新:

  4. 输出门(Output Gate)

    输出门控制 LSTM 的最终输出,即新的隐藏状态 。它将新的细胞状态 ​ 调整后输出:

2.LSTM的代码实现

以下是使用 PyTorch 实现 LSTM 的代码示例:

python 复制代码
import torch
import torch.nn as nn
import torch.optim as optim

# 定义 LSTM 模型
class LSTMModel(nn.Module):
    def __init__(self, input_size, hidden_size, output_size, num_layers=1):
        super(LSTMModel, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        # 初始化隐藏状态和细胞状态
        h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)
        c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)
        
        # 通过 LSTM 层
        out, _ = self.lstm(x, (h0, c0))
        
        # 获取最后一个时间步的输出
        out = self.fc(out[:, -1, :])
        return out

# 定义模型参数
input_size = 10    # 输入维度
hidden_size = 20   # 隐藏层维度
output_size = 1    # 输出维度
num_layers = 2     # LSTM 层数

# 初始化模型
model = LSTMModel(input_size, hidden_size, output_size, num_layers)

# 定义损失函数和优化器
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 训练模型
num_epochs = 100
for epoch in range(num_epochs):
    # 假设输入数据 x 和标签 y
    x = torch.randn(32, 5, input_size)  # (batch_size, sequence_length, input_size)
    y = torch.randn(32, output_size)
    
    # 前向传播
    outputs = model(x)
    loss = criterion(outputs, y)
    
    # 反向传播和优化
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    if (epoch+1) % 10 == 0:
        print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

3.代码详解

  • 输入数据 :这里的 x 是一个三维张量,形状为 (批次大小, 序列长度, 输入维度),其中 序列长度 是 LSTM 模型需要捕获依赖的时间步。
  • 隐藏层和输出层 :LSTM 输出的最后一个时间步的隐藏状态传递给全连接层 fc,用于输出预测结果。
  • 初始化状态 :LSTM 层需要初始化隐藏状态 h0 和细胞状态 c0,这通常在每个新序列的起点进行。
  • 损失函数和优化器:使用均方误差损失函数(MSELoss)和 Adam 优化器来优化模型。

通过调整输入、隐藏和输出维度,这种结构可以适用于各种时间序列预测、自然语言处理等任务。

相关推荐
Blossom.118几秒前
基于深度学习的图像分类:使用Capsule Networks实现高效分类
人工智能·python·深度学习·神经网络·机器学习·分类·数据挖掘
宇称不守恒4.03 分钟前
2025暑期—05神经网络-卷积神经网络
深度学习·神经网络·cnn
CodeCraft Studio8 分钟前
借助Aspose.HTML控件,在 Python 中将 HTML 转换为 Markdown
开发语言·python·html·markdown·aspose·html转markdown·asposel.html
aramae9 分钟前
大话数据结构之<队列>
c语言·开发语言·数据结构·算法
大锦终20 分钟前
【算法】前缀和经典例题
算法·leetcode
悠哉悠哉愿意27 分钟前
【电赛学习笔记】MaxiCAM 项目实践——与单片机的串口通信
笔记·python·单片机·嵌入式硬件·学习·视觉检测
封奚泽优32 分钟前
使用Python实现单词记忆软件
开发语言·python·random·qpushbutton·qtwidgets·qtcore·qtgui
想变成树袋熊44 分钟前
【自用】NLP算法面经(6)
人工智能·算法·自然语言处理
Goona_1 小时前
拒绝SQL恐惧:用Python+pyqt打造任意Excel数据库查询系统
数据库·python·sql·excel·pyqt
格林威1 小时前
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现沙滩小人检测识别(C#代码UI界面版)
人工智能·深度学习·数码相机·yolo·计算机视觉