【王树森】RNN模型与NLP应用(9/9):Self-Attention(个人向笔记)

前言

上节课讲到的attention用到了Seq2Seq模型上,而Attention并不局限与Seq2Seq模型,而是可以用在所有RNN模型上。Self-attention在原论文中用到了LSTM上,而本节课做了简单的替换:换成了 Simple RNN。


SimpleRNN + Self-Attention

下面的 h 0 h_0 h0 为初始状态,是一个全0向量

  • 无 Self-Attention 的更新状态:
  • 有 Self-Attention 的更新状态:把 h 0 h_0 h0 换成了 c 0 c_0 c0
  • 接下来需要计算 c 1 c_1 c1 ,上节课提到 c c c 需要根据 h h h 来计算,而此时 h 0 h_0 h0 为全 0 向量,所以 c 1 c_1 c1 就等于 h 1 h_1 h1:
  • h 2 h_2 h2 同理:
  • 相关性与 c 2 c_2 c2 的计算需要同时包含 h 2 h_2 h2:后面的过程类似






Summary

  • Self-Attention能很大程度上解决RNN遗忘的问题
  • Self-Attenion和Attention的原理是一样的,但是Self-Attention不局限于Seq2Seq模型上,而是可以应用到所有RNN上
  • 除了避免遗忘,Self-Attention还能帮助关注相关的信息
相关推荐
我命由我123453 分钟前
开发中的英语积累 P25:Axis、Stroke、Corner、Interceptor、Declared、Internal
经验分享·笔记·学习·职场和发展·求职招聘·职场发展·学习方法
扑火的小飞蛾15 分钟前
【Ansible学习笔记01】 批量执行 shell 命令
笔记·学习·ansible
hunter145015 分钟前
2026.1.4 html简单制作
java·前端·笔记·html
葡萄杨24 分钟前
【存算芯片】存算阵列模型和wavedrom
笔记
中屹指纹浏览器26 分钟前
2026指纹浏览器技术选型与实践:从单账号到千级矩阵的部署优化
经验分享·笔记
大数据小禅31 分钟前
【AI大模型】大模型预训练从零到一:深入理解大语言模型的训练之路
人工智能·语言模型·自然语言处理
weixin_4374977733 分钟前
学习笔记:用于EDA的LLMs专题会议论文
人工智能·笔记·搜索引擎·fpga开发
HXR_plume36 分钟前
【Web信息处理与应用课程笔记5】多模态信息检索
人工智能·笔记·计算机网络·信息检索
航Hang*1 小时前
第八章:综合布线技术 —— 进线间和建筑群子系统设计
网络·笔记·学习·设计·期末·光纤
亦复何言??11 小时前
机器人强化学习入门笔记(四)
笔记·机器人