【王树森】RNN模型与NLP应用(9/9):Self-Attention(个人向笔记)

前言

上节课讲到的attention用到了Seq2Seq模型上,而Attention并不局限与Seq2Seq模型,而是可以用在所有RNN模型上。Self-attention在原论文中用到了LSTM上,而本节课做了简单的替换:换成了 Simple RNN。


SimpleRNN + Self-Attention

下面的 h 0 h_0 h0 为初始状态,是一个全0向量

  • 无 Self-Attention 的更新状态:
  • 有 Self-Attention 的更新状态:把 h 0 h_0 h0 换成了 c 0 c_0 c0
  • 接下来需要计算 c 1 c_1 c1 ,上节课提到 c c c 需要根据 h h h 来计算,而此时 h 0 h_0 h0 为全 0 向量,所以 c 1 c_1 c1 就等于 h 1 h_1 h1:
  • h 2 h_2 h2 同理:
  • 相关性与 c 2 c_2 c2 的计算需要同时包含 h 2 h_2 h2:后面的过程类似






Summary

  • Self-Attention能很大程度上解决RNN遗忘的问题
  • Self-Attenion和Attention的原理是一样的,但是Self-Attention不局限于Seq2Seq模型上,而是可以应用到所有RNN上
  • 除了避免遗忘,Self-Attention还能帮助关注相关的信息
相关推荐
wqfhenanxc7 分钟前
Mixing C++ and Rust for Fun and Profit 阅读笔记
c++·笔记·rust
豆沙沙包?1 小时前
8.学习笔记-Maven进阶(P82-P89)
笔记·学习·maven
刘婉晴8 小时前
【信息安全工程师备考笔记】第三章 密码学基本理论
笔记·安全·密码学
青松@FasterAI9 小时前
【程序员 NLP 入门】词嵌入 - 上下文中的窗口大小是什么意思? (★小白必会版★)
人工智能·自然语言处理
多巴胺与内啡肽.9 小时前
深度学习--自然语言处理统计语言与神经语言模型
深度学习·语言模型·自然语言处理
偶尔微微一笑9 小时前
AI网络渗透kali应用(gptshell)
linux·人工智能·python·自然语言处理·编辑器
晓数10 小时前
【硬核干货】JetBrains AI Assistant 干货笔记
人工智能·笔记·jetbrains·ai assistant
我的golang之路果然有问题10 小时前
速成GO访问sql,个人笔记
经验分享·笔记·后端·sql·golang·go·database
lwewan10 小时前
26考研——存储系统(3)
c语言·笔记·考研
搞机小能手11 小时前
六个能够白嫖学习资料的网站
笔记·学习·分类