Google BERT入门（5）Transformer通过位置编码学习位置

文章目录

[6. Google BERT入门（5）Transformer通过位置编码学习位置](#6. Google BERT入门（5）Transformer通过位置编码学习位置)

6. Google BERT入门（5）Transformer通过位置编码学习位置

考虑输入句子"I love learning"。在RNN（Recurrent Neural Network，递归神经网络）中，我们逐词将句子输入网络。也就是说，首先输入单词"I"，然后输入单词"love"，等等。我们逐词输入句子，以便网络完全理解句子。但是，在transformer网络中，我们不遵循递归机制。所以，我们不是逐词输入句子，而是将句子中的所有单词并行输入网络。并行输入单词有助于减少训练时间，也有助于学习长期依赖关系。

然而，问题是由于我们并行输入单词到transformer中，如果单词顺序没有保留，它将如何理解句子的含义？要理解句子，单词顺序（句子中单词的位置）是重要的，对吧？是的，单词顺序非常重要，因为它有助于理解句子中每个单词的位置，这反过来又有助于理解句子的含义。

所以，我们应该向transformer提供一些关于单词顺序的信息，以便它能够理解句子。我们怎样才能做到这一点？现在，让我们更详细地探讨这个问题。

对于给定的句子"I love learning"，首先，我们获取句子中每个单词的嵌入向量。设嵌入维度为dmodel。假设嵌入维度dmodel是4。那么，我们的输入矩阵维度将是[句子长度 x 嵌入维度] = [3 x 4]。

我们使用输入矩阵（嵌入矩阵）表示我们的输入句子"I love learning"。设输入矩阵如下：

图1.25 -- 输入矩阵

现在，如果我们直接将前面的输入矩阵传递给transformer，它无法理解单词顺序。所以，我们不是直接将输入矩阵喂给transformer，而是需要添加一些信息来指示单词顺序（单词的位置），以便我们的网络能够理解句子的含义。为此，我们引入了一种称为位置编码的技术。位置编码，顾名思义，是一种指示句子中单词位置（单词顺序）的编码。

位置编码矩阵P的维度与输入矩阵X相同。现在，在直接将输入矩阵（嵌入矩阵）喂给transformer之前，我们包含了位置编码。因此，我们简单地将位置编码矩阵加到嵌入矩阵上，然后作为输入喂给网络。现在，我们的输入矩阵不仅包含单词的嵌入，还包含句子中单词的位置：