李宏毅机器学习笔记-自注意力机制（self-attention)

引言

以往我们遇到的深度学习问题中，对于神经网络的输入一般都是一个向量，输出可能是一个类别。如果增加输入的复杂度，例如输入的是多个向量，或改变输入的向量长度（eg句子处理、声音序列处理、graph等）

那么输出会是什么情况呢？

① 每个输入向量都对应一个标签，输入和输出长度一样。例如输入一句话，让机器判断这句话中的每一个单词的词性。
第①种情况举例

② 只输出一个标签。例如文本情感分析，输入一句话让机器判断这句话是正面的还是消极的等等。
第②种情况举例

③ 由模型判断输出数量

本文专注于讨论第①种输出情况，这种情况又称Sequence Labeling

Sequence Labeling

想要实现输入多个向量，输出同样数目的标签label，有一种解决方案就是FC（Fully-connected），对于每一个向量执行一次FC，然后输出对应的标签。

但是这样做有很大的弊端。例如在判断词性的例子中，我们将一句话作为一个输入，而一句话由多个单词组成，每个单词都有其对应的向量（向量的生成方式有两种，one-hot encoding 和 word embedding）。我们让每个单词都经过一次FC，得到其对应的词性。但是在上图的例子中，一句话中的两个saw是不同词性的，但是通过相同的网络得到输出没有理由是不一样的，因为输入的向量完全一样。

那么可以考虑这句话的上下文信息，把一个单词的相邻单词也考虑进去。一次输入一个window里面的向量。

但是这样的方法还是有弊端，如果我们有一个任务不是要考虑一个window就可以解决的，而是要考虑整句话才能解决。那么把window设置成一句话的长度可以吗？显然不行，因为我们一开始就说过，每一个输入样本的长度是不定的。那么把window设置成所有样本输入中最长的那个样本的长度可以吗？看似可以，但是这样做会需要学习太多的参数，可能会造成过拟合。那么有什么解决方法呢？这就需要用到本文要介绍的self-attention机制。