深度学习|注意力机制

X-future4262025-04-09 17:46

一、注意力提示

随意：跟随主观意识，也就是指有意识。

注意力机制：考虑"随意线索"，有一个注意力池化层，将会最终选择考虑到"随意线索"的那个值

二、注意力汇聚

这一部分也就是讲第一大点中"注意力汇聚"那个池化层如何实现池化操作。

1.非参注意力池化层

为什么叫"非参"呢？因为这里定义的池化层函数，函数中所用到的数据均来源于之前的变量，不需要学习任何参数，K是一个函数。
这里的query、key、value不懂是什么意思，好像和理解的函数对应不上，李沐没讲

1.1平均池化

这是最简单的池化方案，就是求解平均值，然后映射到value（值）上。

1.2NW核回归

就是K这个函数选取高斯核K(u)，然后入代到上面的池化函数中。

2.参数注意力池化层

就是引入了一个可以学习的w作为参数，每次进行迭代。

二、注意力分数

1.基本介绍

就是说池化层的池化函数关键在于如何定义函数a，函数a就是注意力分数，softmax其实就是将其转换到0-1上，都弄成正的小数。

2.函数a的定义方式

2.1可加性的注意力

可加性的注意力，将函数a定义为上面所示的样子，其实就是将key和value合并起来，具体怎么个意思没太懂。

2.2Scaled Dot-Production Attention

三、自注意力

1.基本含义

将Xi当作key，value，query来提取序列特征。

2.位置编码

3.位置编码矩阵

这个矩阵P就是计算的出的矩阵X的位置信息编码矩阵。从图中可以看出，其实就是将位置信息加到了矩阵X输入上去。

4.绝对位置信息

对每个样本都给一个独一无二的位置信息，将这个位置信息加到原矩阵信息上去。

5.相对位置信息

四、Transformer

沐神说：老大的小孩过来看到BERT说，欸这不是芝麻街......

1.架构

2.多头注意力

上一篇：大模型ui设计SVG输出

下一篇：【区块链安全 | 第三十六篇】合约审计之自毁函数

热门推荐

01GitHub 镜像站点 02安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）03Linux下V2Ray安装配置指南 04手把手教你通过Gemini3 pro 学生认证，白用一年，手慢无！05Labelme从安装到标注：零基础完整指南 06jdk21下载、安装（Windows、Linux、macOS）07GitLab 零基础入门指南：从安装到项目管理全流程 08【踩坑笔记】50系显卡适配的 PyTorch 安装 09UV安装并设置国内源 102025-04-03 Latex学习1——本地配置Latex + VScode环境