每天五分钟玩转深度学习PyTorch:基于pytorch搭建LSTM和GRU模型

本文重点

前面我们学习了使用pytorch搭建RNN,本文我们学习如何使用pytorch搭建LSTM和GRU模型,我们来看一下,它们两个和LSTM和GRU有什么不同。

搭建LSTM

我们可以看到模型的搭建和RNN没什么区别,关键在于它的前向传播的返回值,out和hn和RNN表示的含义一样,多了一个cn,cn和hn的维度一样的都是[层数*方向,batch,hidden-size]

除此之外,LSTM和RNN的区别还体现在参数维度上,LSTM的参数维度是RNN的四倍,可以理解为wxh的维度为(hidden_len*4,feature_len)

out表示最上层每个时刻的输出,如果要是获取最后一个时刻可以[-1,::]

Cn表示最后一个时刻的长期状态(所有层),有两层的话,那么中间层也会获取到

hn表示最后一个时刻的隐藏状态(所有层)

搭建GRU

hidden的维度是[层数*方向,batch,hidden-size]

除此之外,GRU和RNN的区别还体现在参数维度上,GRU的参数维度是RNN的四倍,可以理解为wxh的维度为(hidden_len*4,feature_len)

相关推荐
Web3&Basketball3 分钟前
大语言模型LLM解决AI幻觉方法的深度分析
人工智能·语言模型·自然语言处理
.银河系.6 分钟前
9.28 深度学习10
人工智能·深度学习
jie*7 分钟前
小杰深度学习(two)——全连接与链式求导
图像处理·人工智能·pytorch·python·深度学习·分类·回归
Bwcx_lzp12 分钟前
深度学习核心技术演进:从函数到 Transformer 架构
人工智能·深度学习·transformer
北京耐用通信27 分钟前
协议不通,数据何通?耐达讯自动化Modbus TCP与Profibus网关技术破解建筑自动化最大瓶颈
网络·人工智能·网络协议·自动化·信息与通信
IT_陈寒30 分钟前
Redis 性能提升秘籍:这5个被低估的命令让你的QPS飙升200%
前端·人工智能·后端
victory04311 小时前
从机器学习到RLHF的完整学科分支脉络与赛道分析
人工智能·机器学习
京东零售技术5 小时前
京东零售胡浩:智能供应链从运筹到大模型到超级智能体的演进
大数据·人工智能
榕壹云5 小时前
GEO正在通过大模型技术重构企业数字营销生态
人工智能·重构·geo
K姐研究社8 小时前
通义万相Wan2.5模型实测,可生成音画同步视频
人工智能·aigc·音视频