视频链接:
https://www.youtube.com/watch?v=ugWDIIOHtPA\&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4\&index=60
文章目录
-
-
- [Self-Attention layer](#Self-Attention layer)
- [Multi-head self-attention](#Multi-head self-attention)
- [Positional encoding](#Positional encoding)
- [Seq2Seq with Attention](#Seq2Seq with Attention)
- Transformer
- [Universal Transformer](#Universal Transformer)
-
Seq2Seq
RNN不容易被平行化
提出用CNN来代替RNN,CNN 可以平行化,但是需要的层数比较深,才能看完所有的输入内容。
Self-Attention layer
b1 到b4 是可以同时被算出。
可以用来取代RNN。
来源: Attention is all you need
然后用每一个a 去对每个k 做attention
加速的矩阵乘法过程
Multi-head self-attention
不同的head 可以关注不同的内容,达到一个更好的注意力效果。
Positional encoding
self-attention 没有考虑位置信息。
因此需要再ai的同时加ei,表示位置信息,有人工控制。