深度学习系列——RNN/LSTM/GRU,seq2seq/attention机制

1、RNN/LSTM/GRU可参考:

https://zhuanlan.zhihu.com/p/636756912

(1)对于这里面RNN的表示中,使用了输入x和h的拼接描述,其他公式中也是如此

(2)各符号图含义如下

2、关于RNN细节,seq2seq以及attention机制的描述,参考:

https://zhuanlan.zhihu.com/p/28054589

注意:这里补充了对于RNN,UVW三个矩阵的使用细节,很多喜欢使用下面这张图

另外,seq2seq中decoder,attention的更新机制没有说清楚(其实就是梯度下降更新权重即可),若使用attention机制,则h0'没有说清楚(需要看下源码部分),对于lstm的h和c以及x序列没有说清楚(拼接后作为decoder每个lstm的输入)。

可以直接参考pytorch官方实践:

https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.htmlhttps://github.com/pytorch/tutorials/blob/main/intermediate_source/seq2seq_translation_tutorial.py

官方代码中,对于GPU模块的output和hidden说明如下

相关推荐
zhangjipinggom5 小时前
multi-head attention 多头注意力实现细节
深度学习
Zack_Liu6 小时前
深度学习基础模块
人工智能·深度学习
闲看云起7 小时前
Bert:从“读不懂上下文”的AI,到真正理解语言
论文阅读·人工智能·深度学习·语言模型·自然语言处理·bert
IT小哥哥呀10 小时前
基于深度学习的数字图像分类实验与分析
人工智能·深度学习·分类
汉堡go12 小时前
1、机器学习与深度学习
人工智能·深度学习·机器学习
fsnine12 小时前
从RNN到LSTM:深入理解循环神经网络与长短期记忆网络
网络·rnn·lstm
LiJieNiub13 小时前
基于 PyTorch 实现 MNIST 手写数字识别
pytorch·深度学习·学习
chxin1401613 小时前
Transformer注意力机制——动手学深度学习10
pytorch·rnn·深度学习·transformer
jie*13 小时前
小杰深度学习(fourteen)——视觉-经典神经网络——ResNet
人工智能·python·深度学习·神经网络·机器学习·tensorflow·lstm
jie*13 小时前
小杰深度学习(sixteen)——视觉-经典神经网络——MobileNetV2
人工智能·python·深度学习·神经网络·tensorflow·numpy·matplotlib