神经网络 torch.nn---nn.LSTM()

torch.nn - PyTorch中文文档 (pytorch-cn.readthedocs.io)

LSTM --- PyTorch 2.3 documentation

LSTM层的作用

LSTM层:长短时记忆网络层,它的主要作用是对输入序列进行处理,对序列中的每个元素进行编码并保存它们的状态,以便后续的处理。

LSTM 是一种特殊的 RNN,它通过引入门控机制来解决传统 RNN 的长期依赖问题。

我们假设:h为LSTM单元的隐藏层输出,c为LSTM内存单元的值,x为输入数据。

LSTM 的结构包含以下几个关键组件:

1、输入门(input gate):决定当前时间步的输入信息对细胞状态的影响程度。

2 、遗忘门(forgetgate):决定上一个时间步的细胞状态对当前时间步的影响程度。

3 、细胞状态(cell state):用于在不同时间步之间传递和存储信息。

4 、输出门(output gate):决定细胞状态对当前时间步的输出影响程度。

5 、隐藏状态(hiddenstate):当前时间步的输出,也是下一个时间步的输入。

nn.LSTM

计算公式

对输入序列的每个元素,LSTM的每层都会执行以下计算:

h_t是时刻t的隐状态,

c_t是时刻t的细胞状态,

x_t是上一层的在时刻t的隐状态或者是第一层在时刻t的输入。

i_t, f_t, g_t, o_t分别代表 输入门,遗忘门,细胞和输出门。

参数说明:

torch.nn.LSTM(input_size , hidden_size , num_layers=1 , bias=True , batch_first=False , dropout=0.0 , bidirectional=False , proj_size=0 , device=None , dtype=None)

  • input_size -- 输入x的特征数量。
  • hidden_size -- 隐层的特征数量。
  • num_layers -- RNN的层数。
  • nonlinearity -- 激活函数。指定非线性函数使用tanh还是relu。默认是tanh
  • bias -- 是否使用偏置。
  • batch_first -- 如果True的话,那么输入Tensor的shape应该是batch_size, time_step, feature,输出也是这样。默认是 False,就是这样形式,(seq(num_step), batch, input_dim),也就是将序列长度放在第一位,batch 放在第二位
  • dropout -- 默认不使用,如若使用将其设置成一个0-1的数字即可。如果值非零,那么除了最后一层外,其它层的输出都会套上一个dropout层。
  • 是否使用双向的 rnn,默认是 False

输入:input, (h_0, c_0)

  • input_shape = 时间步数, 批量大小, 特征维度 = num_steps(seq_length), batch_size, input_dim=input (seq_len, batch, input_size)保存输入序列特征的tensor。
  • h_0是shape=(num_layers*num_directions,batch_size,hidden_size)的张量,保存着batch中每个元素的初始化隐状态的Tensor。其中num_layers就是LSTM的层数。如果bidirectional=True,num_directions=2,否则就是1,表示只有一个方向。
  • c_0 是shape=(num_layers*num_directions,batch_size,hidden_size)的张量, 保存着batch中每个元素的初始化细胞状态的Tensor。h_0,c_0如果不提供,那么默认是0。

输出:output, (h_n, c_n)

  • output的shape=(seq_length,batch_size,num_directions*hidden_size),(时间步数, 批量大小, 隐藏单元个数)。 保存最后一层的输出的Tensor
  • h_n (num_layers * num_directions, batch, hidden_size): Tensor,保存着LSTM最后一个时间步的隐状态。
  • c_n (num_layers * num_directions, batch, hidden_size): Tensor,保存着LSTM最后一个时间步的细胞状态。

LSTM模型参数:

LSTM --- PyTorch 2.3 documentation

LSTM的结构解释:

MATLAB神经网络---lstmLayer(LSTM 长短期记忆神经网络)-CSDN博客

相关推荐
YOLO视觉与编程7 分钟前
jetson orin nano烧录jetpack7.2系统
人工智能·深度学习·yolo·目标检测·机器学习
DeniuHe25 分钟前
什么是嵌入空间?听起来高大上,其实。。。
深度学习
qq_2915792543 分钟前
电商主图优化实战指南:AI工具如何提升点击率与转化率
大数据·人工智能·深度学习
机器学习之心44 分钟前
基于 GRU-Attention 的多工况车速预测:当序列建模遇见自注意力
人工智能·深度学习·gru·多工况车速预测
delishcomcn1 小时前
基于深度学习的烫金箔分切缺陷实时检测系统
人工智能·深度学习
DreamLife☼1 小时前
OpenBCI-脑电信号深度学习:CNN与RNN应用
人工智能·rnn·深度学习·cnn·eeg·脑电·openbci
HKkuaidou2 小时前
基于深度学习的药用草本植物识别系统
pytorch·python·深度学习·resnet
txg6662 小时前
FuzzGPT:用大语言模型生成“极端边界程序”的深度学习框架 Fuzzing 新范式
人工智能·深度学习·安全·网络安全·语言模型
探物 AI2 小时前
零基础入门3D点云深度学习:从PointNet开始,理解3D数据处理
人工智能·深度学习·3d
硅谷秋水2 小时前
Nautilus:从单一提示词到即插即用机器人学习
人工智能·深度学习·机器学习·机器人