RNN,LSTM,GRU,Seq2Seq,Seq2Seqwithattention,transformer

回顾并总结一下RNN,LSTM,GRU,Seq2Seq,Seq2Seqwithattention,transformer的关系的差别

1.RNN：

之前的博客专门总结过，这里提一下它的缺点：

梯度消失/爆炸；只有记忆没有遗忘，数据多了之后抓不到重点；必须逐个单词处理，不能并行处理。

2.LSTM：引入了cell state，就是长时记忆

有三个门，forget/input/output（门的结构：sigmoid+对应点积乘法）

引入了长时记忆，缓解了RNN的梯度消失和长期依赖问题

缺点：句子过长时，还是容易遗忘较远的内容；必须逐个单词处理，不能并行

3.GRU

LSTM的简化版，只有两个门，reset和update，reset控制遗忘和记忆的权重，update表示历史信息遗忘程度。输出也取消了长时记忆cell state,只输出ht

最终ht=(1-zt)*ht-1+zt*h^

优点：参数量比LSTM少，计算更快，更容易训练

缺点：同LSTM

以上这些都无法处理输入一段序列产生不一定长度新序列的任务，所以出现了seq2seq：

由encoder和decoder组成，其中encoder和decoder都是RNN/LSTM/GRU

缺点：句子太长就会产生遗忘，精度会下降，因为每个单词都没有考虑语义信息

又出现了seq2seqwithattention：

在生成每个单词时，从原始句子中提取生成该单词时的最重要信息。

也是由encoder和decoder组成，其中encoder和decoder都是RNN/LSTM/GRU。

只不过encoder传给decoder的不只是第T时刻（最后一个时刻）的hidden state，还有前面所有的hidden state,用所有的hidden state * softmax(hidden state) + 第T时刻的hidden state 作为decoder的输入

缺点：不能并行处理

然后最牛的transformer就诞生了：完全没有用RNN/LSTM/GRU，直接进行并行处理，先提取每个单词在句子中的权重softmax（Q*K/根号下dk），再对V进行加权求和，考虑到了每个句子中单词与单词之间的联系。

由于用的不是RNN，不能利用单词之间的顺序关系，所以需要加入position emb，并且position emb维度要和单词本身的emb相同。

其中还有残差块防止网络退化，让网络专注于当前和之前的差异，再加上LayerNormalization加速收敛、缓解梯度饱和。

在decoder的cross attention层保证了每一个产生的单词都能考虑到encoder的所有信息（Q来自decoder,K和V来自encoder）

PS:decoder的自注意力机制层是带mask的，因为后面的单词还没产生所以不考虑后面的