传统RNN模型笔记:输入数据长度变化的结构解析

一、案例背景

本案例通过PyTorch的nn.RNN构建单隐藏层RNN模型,重点展示RNN对变长序列数据的处理能力(序列长度从1变为20),帮助理解RNN的输入输出逻辑。

二、核心代码与结构拆解

python 复制代码
def dm_rnn_for_sequencelen():
    # 1. 定义RNN模型
    rnn = nn.RNN(5, 6, 1)  # input_size=5, hidden_size=6, num_layers=1
    
    # 2. 准备输入数据
    input = torch.randn(20, 3, 5)  # 序列长度=20,批次大小=3,输入维度=5
    
    # 3. 初始化隐状态
    h0 = torch.randn(1, 3, 6)  # 层数×方向=1,批次大小=3,隐藏层维度=6
    
    # 4. 前向传播
    output, hn = rnn(input, h0)
    
    # 输出结果
    print('output形状--->', output.shape)  # torch.Size([20, 3, 6])
    print('hn形状--->', hn.shape)          # torch.Size([1, 3, 6])
    print('模型结构--->', rnn)             # RNN(5, 6)

三、关键参数详解

1. 模型定义参数(nn.RNN

参数 含义 本案例取值 说明
input_size 输入特征维度 5 每个时间步的输入向量维度(如单词的 embedding 维度)
hidden_size 隐藏层输出维度 6 每个时间步的隐状态向量维度
num_layers 隐藏层层数 1 单隐藏层结构,简化计算

2. 输入数据格式(input

  • 形状:[sequence_length, batch_size, input_size]
  • 本案例:[20, 3, 5]
    • 20序列长度(sequence_length),每个样本包含20个时间步(如一句话有20个单词);
    • 3批次大小(batch_size),一次并行处理3个样本;
    • 5输入特征维度 ,与模型定义的input_size一致。

3. 初始隐状态(h0

  • 形状:[num_layers × num_directions, batch_size, hidden_size]
  • 本案例:[1, 3, 6]
    • 1num_layers × num_directions(1层+单向RNN);
    • 3:与输入的batch_size一致,每个样本对应一个初始隐状态;
    • 6:与模型定义的hidden_size一致,初始隐状态的维度。

四、输出结果解析

1. output(所有时间步的隐藏层输出)

  • 形状:[sequence_length, batch_size, hidden_size]
  • 本案例:[20, 3, 6]
    • 包含每个时间步、每个样本的隐藏层输出(20个时间步×3个样本×6维向量);
    • 体现RNN对序列的"逐步处理"特性,保留所有中间结果。

2. hn(最后一个时间步的隐状态)

  • 形状:[num_layers × num_directions, batch_size, hidden_size]
  • 本案例:[1, 3, 6]
    • 仅包含最后一个时间步(第20步)、每个样本的隐状态;
    • 因单隐藏层,hnoutput的最后一个时间步结果完全一致。

五、核心结论:RNN对变长序列的适应性

  • 序列长度可灵活变化 :只要输入特征维度(input_size)和批次大小(batch_size)不变,RNN可处理任意长度的序列(如示例1中长度=1,本案例中长度=20)。
  • 输出形状随序列长度调整output的第一个维度始终等于输入序列长度,体现RNN对时序数据的动态处理能力。

六、类比理解

将RNN比作"逐字阅读的处理器":

  • 输入:3篇文章(batch_size=3),每篇20个单词(sequence_length=20),每个单词用5维向量表示(input_size=5);
  • 处理过程:每读一个单词(时间步),结合上一步的记忆(隐状态),更新当前记忆(6维向量,hidden_size=6);
  • 输出:output是每读一个单词时的记忆记录,hn是读完最后一个单词的最终记忆。
相关推荐
呆头鹅AI工作室1 小时前
[2025CVPR-图象分类方向]SPARC:用于视觉语言模型中零样本多标签识别的分数提示和自适应融合
图像处理·人工智能·python·深度学习·神经网络·计算机视觉·语言模型
点云SLAM1 小时前
Pytorch中cuda相关操作详见和代码示例
人工智能·pytorch·python·深度学习·3d·cuda·多gpu训练
huangyuchi.2 小时前
【Linux】进程切换与优先级
linux·运维·笔记·进程切换·进程优先级·寄存器·linux调度算法
2301_764441333 小时前
储粮温度预测新方案!FEBL模型用代码实现:LSTM+注意力+岭回归的完整流程
python·深度学习·机器学习
之之为知知3 小时前
Chromadb 1.0.15 索引全解析:从原理到实战的向量检索优化指南
人工智能·深度学习·机器学习·大模型·索引·向量数据库·chromadb
天若有情6733 小时前
从字符串替换到神经网络:AI发展历程中的关键跨越
人工智能·深度学习·神经网络
宇称不守恒4.03 小时前
2025暑期—06神经网络-常见网络3
人工智能·深度学习·神经网络
慕婉03074 小时前
循环神经网络(RNN)详解:从原理到实践
人工智能·rnn·深度学习
Y小葵4 小时前
【Practical Business English Oral Scene Interpretation】入职面试No.8~9
笔记·学习·职场和发展
花海如潮淹5 小时前
API安全监测工具:数字经济的免疫哨兵
网络·经验分享·笔记·安全