Google BERT入门(3)Transformer的自注意力机制的理解(上)

文章目录


4.自注意力机制的理解

我们学习了如何计算查询矩阵Q、键矩阵K和值矩阵V,并且我们还了解到它们是从输入矩阵X中获得的。现在,让我们看看查询、键和值矩阵在自注意力机制中是如何被使用的。

我们了解到,为了计算一个单词的表示,自注意力机制将该单词与给定句子中的所有单词联系起来。考虑句子"I love learning"。为了计算单词"I"的表示(representation),我们将单词"I"与句子中的所有单词联系起来,如下所示:

图1.8 - 自注意力示例

但我们为什么要这样做呢?理解一个单词如何与句子中的所有单词相关联有助于我们学习更好的表示(representation)。现在,让我们学习自注意力机制如何使用查询、键和值矩阵将一个单词与句子中的所有单词联系起来。自注意力机制包括四个步骤;接下来我们来考察每个步骤。

步骤 1

自注意力机制的第一步是计算查询矩阵Q和键矩阵KT的点积:

图1.9 - 查询和键矩阵

以下展示了查询矩阵Q和键矩阵KT的点积结果:

图1.10 - 计算查询矩阵和键矩阵的点积

但是,计算查询矩阵和键矩阵之间的点积有什么用?究竟是什么意思?让我们通过详细查看Q﹒KT的结果来理解这一点。

让我们看看Q﹒KT矩阵的第一行,如下所示。我们可以观察到,我们正在计算查询向量q1(I)和所有键向量------k1(I)、k2(love)和k3(learning)之间的点积。两个向量的点积的意义是它们的相似性。

因此,计算查询向量(q1)和键向量(k1、k2和k3)之间的点积可以告诉我们查询向量q1(I)与所有键向量------k1(I)、k2(love)和k3(learning)有多么相似。通过查看Q﹒KT矩阵的第一行,我们可以理解单词"I"与单词"love"和"learning"相比,与自己更为相关,因为q1.k1比q1.k2和q1.k3的点积值更高:

图1.11 - 计算查询向量(q 1)和键向量(k 1 、k 2 和 k 3)之间的点积

请注意,本章中使用的值是任意的,只是为了让我们更好地理解。

现在,让我们看看矩阵Q﹒KT的第二行。如下图所示,我们可以观察到我们正在计算查询向量q2(love)和所有键向量------k1(I)、k2(love)和k3(learning)之间的点积。这告诉我们查询向量q2(love)与键向量------k1(I)、k2(love)和k3(learning)有多么相似。

通过查看矩阵的第二行,我们可以理解单词"love"与单词"I"和"learning"相比,与自己更为相关,因为q2.k2比q2.k1和q2.k3的点积值更高:

图1.12 - 计算查询向量(q 2)和键向量(k 1 、k 2 和 k 3)之间的点积

同样,让我们看看矩阵Q﹒KT的第三行。如下图所示,我们可以观察到我们正在计算查询向量q3(learning)和所有键向量------k1(I)、k2(love)和k3(learning)之间的点积。这告诉我们查询向量(learning)与所有键向量------k1(I)、k2(love)和k3(learning)有多么相似。

通过查看矩阵的第三行,我们可以理解单词"learning"在句子中与单词"I"和"love"相比,与自己更为相关,因为q3.k3比q3.k1和q3.k2的点积值更高:

图1.13 - 计算查询向量(q 3)和键向量(k 1 、k 2 和 k 3)之间的点积

因此,我们可以说,计算查询矩阵Q和键矩阵KT的点积本质上给出了相似度分数,这有助于我们理解句子中的每个单词与其他单词有多么相似。

步骤 2

自注意力机制的下一步是将矩阵Q﹒KT除以键向量维度的平方根。但我们为什么要这样做呢?这在获得稳定梯度方面是有用的。

设键向量的维度为dk。然后,我们将 Q.KT除以sqrt(dk)。键向量的维度是64,其平方根为8。因此,我们按照下图所示,将 Q.KT除以8:

图1.14 - 将 Q.KT除以键向量维度的平方根

步骤 3

通过观察前面的相似度分数,我们可以理解它们处于未归一化的形式。因此,我们使用softmax函数对它们进行归一化。应用softmax函数有助于将分数范围限制在0到1之间,并且分数的总和等于1,如下图所示:

图1.15 - 应用softmax函数

我们可以将前面的矩阵称为分数矩阵。借助这些分数,我们可以理解句子中的每个单词如何与句子中的所有单词相关。例如,查看前面分数矩阵的第一行;它告诉我们单词"I"与自身的关联度为90%,与单词"love"的关联度为7%,与单词"learning"的关联度为3%。

相关推荐
DataCastle4 分钟前
第三届Bio-OS AI开源大赛启动会隆重举行
人工智能
后端小肥肠13 分钟前
躺赚必备!RPA+Coze+豆包:公众号自动发文,AI率0%亲测有效(附AI率0%提示词)
人工智能·aigc·coze
摘星编程24 分钟前
CloudBase AI ToolKit实战:从0到1开发一个智能医疗网站
人工智能·腾讯云·ai代码远征季#h5应用·ai医疗应用·cloudbase开发
锅挤29 分钟前
深度学习5(深层神经网络 + 参数和超参数)
人工智能·深度学习·神经网络
一支烟一朵花33 分钟前
630,百度文心大模型4.5系列开源!真香
人工智能·百度·开源·文心一言
网安INF35 分钟前
深层神经网络:原理与传播机制详解
人工智能·深度学习·神经网络·机器学习
喜欢吃豆40 分钟前
目前最火的agent方向-A2A快速实战构建(二): AutoGen模型集成指南:从OpenAI到本地部署的全场景LLM解决方案
后端·python·深度学习·flask·大模型
AIbase20241 小时前
国内MCP服务平台推荐!aibase.cn上线MCP服务器集合平台
运维·服务器·人工智能
喜欢吃豆2 小时前
快速手搓一个MCP服务指南(九): FastMCP 服务器组合技术:构建模块化AI应用的终极方案
服务器·人工智能·python·深度学习·大模型·github·fastmcp
星融元asterfusion2 小时前
基于路径质量的AI负载均衡异常路径检测与恢复策略
人工智能·负载均衡·异常路径