N10 - NLP中的注意力机制


目录

  • [1. 注意力机制是什么](#1. 注意力机制是什么)
  • [2. 注意力实现步骤](#2. 注意力实现步骤)
    • [0. 准备隐藏状态](#0. 准备隐藏状态)
    • [1. 获取每个编码器隐藏状态的分数](#1. 获取每个编码器隐藏状态的分数)
    • [2. 通过softmax层运行所有分数](#2. 通过softmax层运行所有分数)
    • [3. 通过softmax得分将每个编码器的隐藏状态相乘](#3. 通过softmax得分将每个编码器的隐藏状态相乘)
    • [4. 向量求和](#4. 向量求和)
    • [5. 将上下文向量输入编码器](#5. 将上下文向量输入编码器)
    • 最后来一个总的动图
  • 总结与心得体会

1. 注意力机制是什么

在上节的seq2seq框架中,让两个循环神经网络(RNN)构成了 编码器-解码器 结构。其中编码器逐个读取输入词,获得固定维度的向量表示,然后解码器基于这些输入逐个提取输出词。

上面的结构的问题在于,解码器从编码器接受的唯一信息是 最后一个编码器隐藏状态,这是类似于对输入的序列进行总结。

所以对于较长的输入文本,结构会变成如下图所示

如果仍然希望解码器仅仅利用最后一个编码器的隐藏状态的输出就输出完成的译文,肯定是不太合理地,会导致灾难性遗忘。

所以我们如果可以向解码器提供每个编码器时间步的向量表示,而不是只把最终的给它,是不是就能改进翻译的结果呢,这就需要引入注意力机制。

注意力机制是编码器和解码器之间的接口,它为解码器提供每个编码器隐藏状态的信息(最后一层的除外)。通过这个设置,模型能够有选择地侧重输入序列中游泳的部分,有助于模型更高效地处理输入长句。

注意力机制的本质:通过为每个单词分配值,注意力机制可以为不同单词分配不同的注意力。然后利用softmax对编码器隐藏状态进行加权求和,得到上下文向量(Context Vector)。

注意力层的实现可以分成6个步骤。

2. 注意力实现步骤

0. 准备隐藏状态

首先需要准备一个解码器隐藏状态和所有可用的编码器的隐藏状态

1. 获取每个编码器隐藏状态的分数

分数(标量)通过评分函数获得。图示是解码器和编码器隐藏状态之间的点积。

2. 通过softmax层运行所有分数

将上一步的得分放到softmax层,这些得分代表注意力分布。

3. 通过softmax得分将每个编码器的隐藏状态相乘

将每个编码器隐藏状态与对应的softmax得分相乘,获得alignment向量

4. 向量求和

将所有的alignment向量相加,生成上下文向量(Context Vector)

5. 将上下文向量输入编码器

最后一步就是把生成的上下文向量给编码器作为输入使用

最后来一个总的动图

总结与心得体会

在没有本节学习之前,我一直以为注意力机制就是Transformer中使用的自注意力机制。通过注意力机制的过程学习,我才发现,自注意力机制只是注意力机制中的一种,并且Transformer这种也只是自注意力机制的一种实现形式。宏观上来看,自注意力机制可以用在更广泛的场景中,比如计算一下特征图每层之间的注意力分数,叫做通道注意力机制。

相关推荐
DogDaoDao8 分钟前
【GitHub】 Headroom 深度解析:AI Agent 上下文压缩层的完整技术拆解
人工智能·深度学习·程序员·github·ai agent·智能体·agent skill
挖坑的张师傅15 分钟前
方便 Mac 本机运行 e2b 的沙箱方案 e2b-local
人工智能·后端
生成论实验室21 分钟前
认知芯片:让判断力在物理定律上运行——AI芯片的第三条路
人工智能·语言模型·机器人·自动驾驶·安全架构
浦信仿真大讲堂21 分钟前
达索系统SIMULIA Abaqus 2026接触和约束的增强新功能介绍
人工智能·python·算法·仿真软件·达索软件
文艺倾年28 分钟前
【强化学习】MDP、贝尔曼方程与CartPole 编程,20W字总结(二)
人工智能·软件工程·强化学习
卡梅德生物科技小能手32 分钟前
卡美德生物科普CD136(RON受体):从基础特性到实验应用
经验分享·深度学习·生活
ttt606_34 分钟前
门店业绩上报系统功能拆解:门店业绩上报如何提高数据精确度与时效性?
大数据·人工智能
phltxy35 分钟前
Spring AI 可观测性与 Zipkin 实战
java·人工智能·spring
ACP广源盛1392462567339 分钟前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark
HIT_Weston1 小时前
117、【Agent】【OpenCode】项目配置(根目录&子包配置)
人工智能·agent·opencode