深度学习系列——RNN/LSTM/GRU，seq2seq/attention机制

confiself2024-10-26 10:35

1、RNN/LSTM/GRU可参考：

https://zhuanlan.zhihu.com/p/636756912

（1）对于这里面RNN的表示中，使用了输入x和h的拼接描述，其他公式中也是如此

（2）各符号图含义如下

2、关于RNN细节，seq2seq以及attention机制的描述，参考：

https://zhuanlan.zhihu.com/p/28054589

注意：这里补充了对于RNN，UVW三个矩阵的使用细节，很多喜欢使用下面这张图

另外，seq2seq中decoder，attention的更新机制没有说清楚（其实就是梯度下降更新权重即可），若使用attention机制，则h0'没有说清楚（需要看下源码部分），对于lstm的h和c以及x序列没有说清楚（拼接后作为decoder每个lstm的输入）。

可以直接参考pytorch官方实践：

https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html https://github.com/pytorch/tutorials/blob/main/intermediate_source/seq2seq_translation_tutorial.py

官方代码中，对于GPU模块的output和hidden说明如下

上一篇：IMX6ULL裸机-ARM内部寄存器

下一篇：docker.io time out

热门推荐

01UV安装并设置国内源 02KGG转MP3工具|非KGM文件|解密音频 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE Rules 实践：为项目配置 6A 工作流 08全球最强模型Grok4，国内已可免费使用！（附教程）09TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南