每天五分钟玩转深度学习PyTorch:基于pytorch搭建LSTM和GRU模型

本文重点

前面我们学习了使用pytorch搭建RNN,本文我们学习如何使用pytorch搭建LSTM和GRU模型,我们来看一下,它们两个和LSTM和GRU有什么不同。

搭建LSTM

我们可以看到模型的搭建和RNN没什么区别,关键在于它的前向传播的返回值,out和hn和RNN表示的含义一样,多了一个cn,cn和hn的维度一样的都是[层数*方向,batch,hidden-size]

除此之外,LSTM和RNN的区别还体现在参数维度上,LSTM的参数维度是RNN的四倍,可以理解为wxh的维度为(hidden_len*4,feature_len)

out表示最上层每个时刻的输出,如果要是获取最后一个时刻可以[-1,::]

Cn表示最后一个时刻的长期状态(所有层),有两层的话,那么中间层也会获取到

hn表示最后一个时刻的隐藏状态(所有层)

搭建GRU

hidden的维度是[层数*方向,batch,hidden-size]

除此之外,GRU和RNN的区别还体现在参数维度上,GRU的参数维度是RNN的四倍,可以理解为wxh的维度为(hidden_len*4,feature_len)

相关推荐
Aleeeeex1 分钟前
RAG 那点事:从 8 份企业文档到能用的问答系统,全过程拆给你看
人工智能·python·ai编程
冬奇Lab5 分钟前
一天一个开源项目(第87篇):Tank-OS —— Red Hat 工程师用一个周末,把 AI Agent 塞进了一个可启动的 Linux 镜像
人工智能·开源·资讯
小糖学代码6 分钟前
LLM系列:2.pytorch入门:8.神经网络的损失函数(criterion)
人工智能·深度学习·神经网络
Jmayday14 分钟前
Pytorch:RNN理论基础
pytorch·rnn·深度学习
Captaincc24 分钟前
转发-中央网信办部署开展“清朗·整治AI应用乱象”专项行动
人工智能·vibecoding
AI自动化工坊36 分钟前
Late框架技术深度解析:5GB VRAM实现10倍AI编码效率的工程架构
人工智能·5g·架构·ai编程·late
我是大聪明.1 小时前
DeepSeek V4 Pro + 华为昇腾910:国产大模型落地的性能实测与深度解析
人工智能·华为
机器之心1 小时前
Generalist之后,罗剑岚团队推出LWD,也要变革具身智能训练范式
人工智能·openai
IT_陈寒1 小时前
Vite的public文件夹放静态资源?这坑我替你踩了
前端·人工智能·后端
传说故事1 小时前
【论文阅读】Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
论文阅读·人工智能·diffusion