深度学习系列——RNN/LSTM/GRU,seq2seq/attention机制

1、RNN/LSTM/GRU可参考:

https://zhuanlan.zhihu.com/p/636756912

(1)对于这里面RNN的表示中,使用了输入x和h的拼接描述,其他公式中也是如此

(2)各符号图含义如下

2、关于RNN细节,seq2seq以及attention机制的描述,参考:

https://zhuanlan.zhihu.com/p/28054589

注意:这里补充了对于RNN,UVW三个矩阵的使用细节,很多喜欢使用下面这张图

另外,seq2seq中decoder,attention的更新机制没有说清楚(其实就是梯度下降更新权重即可),若使用attention机制,则h0'没有说清楚(需要看下源码部分),对于lstm的h和c以及x序列没有说清楚(拼接后作为decoder每个lstm的输入)。

可以直接参考pytorch官方实践:

https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.htmlhttps://github.com/pytorch/tutorials/blob/main/intermediate_source/seq2seq_translation_tutorial.py

官方代码中,对于GPU模块的output和hidden说明如下

相关推荐
Uzuki5 小时前
AI可解释性 II | Saliency Maps-based 归因方法(Attribution)论文导读(持续更新)
深度学习·机器学习·可解释性
Start_Present7 小时前
Pytorch 第十二回:循环神经网络——LSTM模型
pytorch·rnn·神经网络·数据分析·lstm
snowfoootball10 小时前
基于 Ollama DeepSeek、Dify RAG 和 Fay 框架的高考咨询 AI 交互系统项目方案
前端·人工智能·后端·python·深度学习·高考
odoo中国10 小时前
深度学习 Deep Learning 第15章 表示学习
人工智能·深度学习·学习·表示学习
橙色小博10 小时前
长短期记忆神经网络(LSTM)基础学习与实例:预测序列的未来
人工智能·python·深度学习·神经网络·lstm
船长@Quant11 小时前
PyTorch量化进阶教程:第六章 模型部署与生产化
pytorch·python·深度学习·transformer·量化交易·sklearn·ta-lib
zy_destiny12 小时前
【工业场景】用YOLOv12实现饮料类别识别
人工智能·python·深度学习·yolo·机器学习·计算机视觉·目标跟踪
进取星辰12 小时前
PyTorch 深度学习实战(32):多模态学习与CLIP模型
pytorch·深度学习·学习
xiangzhihong814 小时前
Amodal3R ,南洋理工推出的 3D 生成模型
人工智能·深度学习·计算机视觉