pytorch笔记 GRUCELL

1 介绍

GRU的一个单元

2 基本使用方法

python 复制代码
torch.nn.GRUCell(
    input_size, 
    hidden_size, 
    bias=True, 
    device=None, 
    dtype=None)

输入:(batch,input_size)

输出和隐藏层:(batch,hidden_size)

3 举例

python 复制代码
import torch.nn as nn

rnn = nn.GRUCell(input_size=5,hidden_size=10)

input_x = torch.randn(3, 5)
#batch,input_size

h0 = torch.randn(3, 10)
#batch,hidden_size

output= rnn(input_x, h0)
output.shape, output
'''
(torch.Size([3, 10]),
 tensor([[-0.4414,  1.0060,  0.3346, -0.2446, -0.4170, -0.6201, -1.0049,  0.1765,
           0.2238, -2.0249],
         [ 0.2764,  0.6327,  0.1682, -0.0433,  1.2226, -1.0959,  0.0345, -0.6375,
          -1.4599, -0.3670],
         [ 0.9447, -0.0849,  0.3983, -0.4078,  0.9805, -0.1826,  0.2151,  0.3382,
          -0.1147, -0.2307]], grad_fn=<AddBackward0>))
'''

4 和GRU的异同

|-----------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 功能性 | * GRU: 它是一个完整的循环层,可以处理整个序列的输入,并一次性返回整个序列的输出。 * GRUCell: 它处理单个时间步长的输入,并返回单个时间步长的输出。它更为基础,通常在你想自定义循环过程时使用。 |
| 输入: | * GRU : 期望的输入形状为 (seq_len, batch, input_size)(如果 batch_first=True,则为 (batch, seq_len, input_size))。 * GRUCell : 期望的输入形状为 (batch, input_size)。 |
| 输出: | * GRU : 它返回两个输出 ------ 整个序列的输出和最后一个时间步长的隐藏状态。输出的形状为 (seq_len, batch, hidden_size)(num_layers * num_directions, batch, hidden_size)。 * GRUCell : 它只返回下一个时间步长的隐藏状态,其形状为 (batch, hidden_size)。 |
| 用法: | * 使用 GRU 时,你可以一次性将整个序列传入,而不需要自己编写循环。 * 使用 GRUCell 时,你需要手动编写循环,以一个时间步长为单位处理输入。 |
| 应用场景: | * GRU: 当你想使用标准的循环过程处理整个序列时,通常使用GRU。 * GRUCell: 当你想自定义循环过程或有特定的需求时使用,例如混合不同类型的RNN单元或在循环中执行特定操作。 |

5 一个GRU由几个GRUcell组成?

一个具有 seq_lenbidirectional=True 和指定的 num_layers 的 GRU 对应的 GRUCell 的数量为:

  1. seq_len :对于长度为 seq_len 的输入序列,GRU 在内部会进行 seq_len 次循环操作,每次循环处理序列中的一个时间步长。所以这部分会贡献 seq_len 个 GRUCell。

  2. bidirectional=True :当 GRU 是双向的,即 bidirectional=True,那么对于每一个时间步长,都会有两个 GRUCell 被调用:一个是正向的,另一个是反向的。因此,双向性将 GRUCell 的数量增加一倍。

  3. num_layers :这表示你要堆叠多少层的 GRU。每一层都会为每个时间步调用其自己的 GRUCell(考虑到双向性,这可能是两个)。所以如果你有 num_layers 层,那么你需要乘以这个数字。

综上所述,总的 GRUCell 的数量为: Total GRUCells=seq_len×(2 if bidirectional else 1)×num_layers

相关推荐
zhangrelay2 小时前
如何使用AI快速编程实现标注ROS2中sensor_msgs/msg/Image图像色彩webots2025a
人工智能·笔记·opencv·学习·计算机视觉·机器人视觉
m0_598250002 小时前
电源完整性07-如何确定PDN网络中的大电容
笔记·单片机·嵌入式硬件·硬件工程
摇滚侠3 小时前
Spring Boot3零基础教程,Reactive-Stream 规范核心接口,笔记103
java·spring boot·笔记
!!!!!!!!!!!!!!!!.4 小时前
CTF WEB入门 命令执行篇29-49
笔记·安全
bnsarocket5 小时前
Verilog和FPGA的自学笔记8——按键消抖与模块化设计
笔记·fpga开发·verilog·自学·硬件编程
TL滕5 小时前
从0开始学算法——第一天(如何高效学习算法)
数据结构·笔记·学习·算法
仰望—星空5 小时前
MiniEngine学习笔记 : CommandAllocatorPool
笔记·学习
朝新_6 小时前
【SpringBoot】玩转 Spring Boot 日志:级别划分、持久化、格式配置及 Lombok 简化使用
java·spring boot·笔记·后端·spring·javaee
charlie1145141917 小时前
CSS学习笔记3:颜色、字体与文本属性基础
css·笔记·学习·教程·基础
TheInk8 小时前
python学习笔记之Python基础教程(crossin全60课)
笔记·python·学习