【王树森】RNN模型与NLP应用(9/9)：Self-Attention（个人向笔记）

好心的小明2024-09-01 13:35

前言

上节课讲到的attention用到了Seq2Seq模型上，而Attention并不局限与Seq2Seq模型，而是可以用在所有RNN模型上。Self-attention在原论文中用到了LSTM上，而本节课做了简单的替换：换成了 Simple RNN。

SimpleRNN + Self-Attention

下面的 h 0 h_0 h0 为初始状态，是一个全0向量

无 Self-Attention 的更新状态：
有 Self-Attention 的更新状态：把 h 0 h_0 h0 换成了 c 0 c_0 c0
接下来需要计算 c 1 c_1 c1 ，上节课提到 c c c 需要根据 h h h 来计算，而此时 h 0 h_0 h0 为全 0 向量，所以 c 1 c_1 c1 就等于 h 1 h_1 h1：
h 2 h_2 h2 同理：
相关性与 c 2 c_2 c2 的计算需要同时包含 h 2 h_2 h2：后面的过程类似

Summary

Self-Attention能很大程度上解决RNN遗忘的问题
Self-Attenion和Attention的原理是一样的，但是Self-Attention不局限于Seq2Seq模型上，而是可以应用到所有RNN上
除了避免遗忘，Self-Attention还能帮助关注相关的信息

上一篇：高级前端工程师React面试题

下一篇：技术成神之路：设计模式（十二）模板方法模式

热门推荐

01GitHub 镜像站点 02【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像（2025最新版）03安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）04UV安装并设置国内源 05React CVE-2025-55182漏洞排查与修复指南 06Linux下V2Ray安装配置指南 07BongoCat - 跨平台键盘猫动画工具 08从入门到实战：Gemini 3 使用指南速览 09本地部署阿里最新开源的Z-Image 10在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）