【王树森】RNN模型与NLP应用(9/9):Self-Attention(个人向笔记)

前言

上节课讲到的attention用到了Seq2Seq模型上,而Attention并不局限与Seq2Seq模型,而是可以用在所有RNN模型上。Self-attention在原论文中用到了LSTM上,而本节课做了简单的替换:换成了 Simple RNN。


SimpleRNN + Self-Attention

下面的 h 0 h_0 h0 为初始状态,是一个全0向量

  • 无 Self-Attention 的更新状态:
  • 有 Self-Attention 的更新状态:把 h 0 h_0 h0 换成了 c 0 c_0 c0
  • 接下来需要计算 c 1 c_1 c1 ,上节课提到 c c c 需要根据 h h h 来计算,而此时 h 0 h_0 h0 为全 0 向量,所以 c 1 c_1 c1 就等于 h 1 h_1 h1:
  • h 2 h_2 h2 同理:
  • 相关性与 c 2 c_2 c2 的计算需要同时包含 h 2 h_2 h2:后面的过程类似






Summary

  • Self-Attention能很大程度上解决RNN遗忘的问题
  • Self-Attenion和Attention的原理是一样的,但是Self-Attention不局限于Seq2Seq模型上,而是可以应用到所有RNN上
  • 除了避免遗忘,Self-Attention还能帮助关注相关的信息
相关推荐
叶小鸡1 小时前
Java 篇-项目实战-苍穹外卖-笔记汇总
java·开发语言·笔记
sakiko_3 小时前
UIKit学习笔记4-使用UITableView制作滚动视图
笔记·学习·ios·swift·uikit
晓梦林4 小时前
MAZESEC-X1靶场学习笔记
笔记·学习
云原生指北7 小时前
你的数据正在喂养 AI:从 Atlassian 公告,看科技平台的数据训练默认政策
笔记
**蓝桉**8 小时前
容器服务学习笔记
笔记·学习
zhangrelay9 小时前
三分钟云课实践速通--模拟电子技术-模电--SimulIDE
linux·笔记·学习·ubuntu·lubuntu
木木_王9 小时前
嵌入式Linux学习 | 数据结构 (Day05) 栈与队列详解(原理 + C 语言实现 + 实战实验 + 易错点剖析)
linux·c语言·开发语言·数据结构·笔记·学习
lkforce9 小时前
MiniMind学习笔记(三)--train_pretrain.py(预训练)
笔记·机器学习·ai·预训练·minimind·train_pretrain
OSwich9 小时前
【 Godot 4 学习笔记】数组(Array)
笔记·学习·godot
数据皮皮侠AI9 小时前
中国城市可再生能源数据集(2005-2021)|顶刊 Sci Data 11 种能源面板
大数据·人工智能·笔记·能源·1024程序员节