【王树森】RNN模型与NLP应用(8/9):Attention(个人向笔记)

前言

  • 基于RNN的Seq2Seq模型无法记住长序列
  • Attentnion机制可以大幅度提升Seq2Seq模型

Seq2Seq Model with Attention

  • Attention可以让句子在逐步变长的时候不忘记前面的输入信息
  • Attention还可以告诉Decoder应该关注哪一个状态
  • 优点:Attention可以大幅度提高准确率
  • 缺点:Attention计算量比较大

Simple RNN + Attention

  • 需要计算最后一个输出的状态和前面所有状态的相关性(权重),把这个权重记为 α i \alpha_i αi,所有的权重总和为1
    • 计算方法1(原版) :①把 h i h_i hi 和 s 0 s_0 s0 做concatenation,②然后和一个矩阵 W W W(需要被训练的参数)相乘后丢到 tanh 激活函数里面使其范围变为 [ − 1 , 1 ] [-1,1] [−1,1] ,③然后再和 v T v^T vT 做内积得到一个实数。④最后把所有的权重做一个Softmax。
    • 计算方法2(更流行,和Transformer一致) :①将 h i h_i hi 与 W K W_K WK(需要被训练的参数) 相乘得到 k i k_i ki,将 s 0 s_0 s0 与 W Q W_Q WQ(需要被训练的参数) 相乘得到 q 0 q_0 q0,其中 k i k_i ki 和 q 0 q_0 q0 都是一维的向量。② k i T q 0 k^T_iq_0 kiTq0 得到权重 α i ~ \tilde{\alpha_i} αi~。③对所有的 α i ~ \tilde{\alpha_i} αi~ 做 Softmax即可得到权重。
  • 我们对所有的 h i h_i hi 利用刚刚算出的权重计算加权平均得出一个向量 c 0 c_0 c0,其中一个 c c c 对应一个 s s s,计算出的加权平均向量被称为 Context vector。
  • 对于更新状态来说,之前的Simple RNN是这样的,它不会去看前面的状态,而是只会看最后一个
  • 而有Attention后更新状态还会把之前的信息 c 0 c_0 c0 考虑进去,也就是还会把前面的信息考虑进去,这样就把RNN遗忘的问题解决了
  • 而对于后续的状态 s i s_i si 重复前面的步骤即可,注意每次权重 α i \alpha_i αi 都需要重新计算后得出 c i c_i ci
  • Question: 有多少权重 α i \alpha_i αi 被计算了?
    • 对于每一个 c i c_i ci ,我们都i需要用 s i s_i si 来计算 m m m 个权重
    • 假设 Decoder 有 t t t 个状态,那么总共就需要计算 m t mt mt 次
    • 这个时间复杂度是很高的!
  • 权重可视化 :在下面的图中,连线表示相关性,连线越粗,相关性越强。而可以看到Area和zone有比较粗的连线,而英语中的Area就对应法语中的zone:权重指导Decoder关注Encoder中正确(如zone会特别关注Area)的状态,从而生成正确的翻译

Summary

  • 之前的Seq2Seq模型:Decoder只会关注最后一个状态,容易导致遗忘
  • Attention则会关注Encoder的所有状态
  • Attention还会指导Decoder关注的侧重点
  • 缺点:更高的计算复杂度,之前的模型只需要 O ( m + t ) O(m+t) O(m+t) 的复杂度,而Attention则需要 O ( m t ) O(mt) O(mt) 的复杂度,其中 m m m 是源序列的长度, t t t 是目标序列的长度
相关推荐
想拿高薪的韭菜1 小时前
人工智能第2章-知识点与学习笔记
人工智能·笔记·学习
一只码代码的章鱼2 小时前
计算机网络 应用层 笔记 (电子邮件系统,SMTP,POP3,MIME,IMAP,万维网,HTTP,html)
笔记·计算机网络·microsoft
学游戏开发的3 小时前
UE求职Demo开发日志#19 给物品找图标,实现装备增加属性,背包栏UI显示装备
c++·笔记·游戏引擎·unreal engine
云缘若仙3 小时前
directx12 3d+vs2022游戏开发第三章 笔记五 变换
笔记·3d
前端达人5 小时前
「AI学习笔记」深度学习进化史:从神经网络到“黑箱技术”(三)
人工智能·笔记·深度学习·神经网络·学习
沐雪架构师6 小时前
AI大模型开发原理篇-4:神经概率语言模型NPLM
人工智能·语言模型·自然语言处理
道友老李6 小时前
【自然语言处理(NLP)】多头注意力(Multi - Head Attention)原理及代码实现
人工智能·自然语言处理
wdxylb7 小时前
GIt使用笔记大全
笔记·git·elasticsearch
一只码代码的章鱼8 小时前
计算机网络 应用层 笔记1(C/S模型,P2P模型,FTP协议)
笔记·计算机网络
霸王蟹8 小时前
el-table组件样式如何二次修改?
前端·javascript·vue.js·笔记·学习·前端框架