深度学习|注意力机制

一、注意力提示

随意:跟随主观意识,也就是指有意识。

注意力机制:考虑"随意线索",有一个注意力池化层,将会最终选择考虑到"随意线索"的那个值

二、注意力汇聚

这一部分也就是讲第一大点中"注意力汇聚"那个池化层如何实现池化操作。

1.非参注意力池化层

为什么叫"非参"呢?因为这里定义的池化层函数,函数中所用到的数据均来源于之前的变量,不需要学习任何参数,K是一个函数。
这里的query、key、value不懂是什么意思,好像和理解的函数对应不上,李沐没讲

1.1平均池化

这是最简单的池化方案,就是求解平均值,然后映射到value(值)上。

1.2NW核回归

就是K这个函数选取高斯核K(u),然后入代到上面的池化函数中。

2.参数注意力池化层

就是引入了一个可以学习的w作为参数,每次进行迭代。

二、注意力分数

1.基本介绍

就是说池化层的池化函数关键在于如何定义函数a,函数a就是注意力分数,softmax其实就是将其转换到0-1上,都弄成正的小数。

2.函数a的定义方式

2.1可加性的注意力

可加性的注意力,将函数a定义为上面所示的样子,其实就是将key和value合并起来,具体怎么个意思没太懂。

2.2Scaled Dot-Production Attention

三、自注意力

1.基本含义

将Xi当作key,value,query来提取序列特征。

2.位置编码

3.位置编码矩阵

这个矩阵P就是计算的出的矩阵X的位置信息编码矩阵。从图中可以看出,其实就是将位置信息加到了矩阵X输入上去。

4.绝对位置信息

对每个样本都给一个独一无二的位置信息,将这个位置信息加到原矩阵信息上去。

5.相对位置信息

四、Transformer

沐神说:老大的小孩过来看到BERT说,欸这不是芝麻街......

1.架构

2.多头注意力

相关推荐
l1t12 分钟前
利用DeepSeek改写SQLite版本的二进制位数独求解SQL
数据库·人工智能·sql·sqlite
说私域26 分钟前
开源AI智能名片链动2+1模式S2B2C商城小程序FAQ设计及其意义探究
人工智能·小程序
开利网络1 小时前
合规底线:健康产品营销的红线与避坑指南
大数据·前端·人工智能·云计算·1024程序员节
非著名架构师1 小时前
量化“天气风险”:金融与保险机构如何利用气候大数据实现精准定价与投资决策
大数据·人工智能·新能源风光提高精度·疾风气象大模型4.0
巫婆理发2222 小时前
评估指标+数据不匹配+贝叶斯最优误差(分析方差和偏差)+迁移学习+多任务学习+端到端深度学习
深度学习·学习·迁移学习
熙梦数字化2 小时前
2025汽车零部件行业数字化转型落地方案
大数据·人工智能·汽车
刘海东刘海东2 小时前
逻辑方程结构图语言的机器实现(草稿)
人工智能
亮剑20182 小时前
第2节:程序逻辑与控制流——让程序“思考”
开发语言·c++·人工智能
hixiong1232 小时前
C# OpenCVSharp使用 读光-票证检测矫正模型
人工智能·opencv·c#
大千AI助手2 小时前
HotpotQA:推动多跳推理问答发展的标杆数据集
人工智能·神经网络·llm·qa·大千ai助手·hotpotqa·多跳推理能力