Transformer and Pretrain Language Models3-2

transformer structure注意力机制的各种变体

第二种变体:

如果两个向量的维度不一样,我们就需要在中间加上一个权重矩阵,来实现他们之间的相乘,然后最后得到一个标量

第三种变体:

additive attention

它和前面的有一个比较大的不同,它使用了一层的前馈神经网络,来将两个向量变成一个标量,来得到注意力分数

在这个变体中,w1、w2和v,分别是两个权重矩阵和一个权重向量;tanh是一个激活函数。这样的话最后也可以得到一个标量,作为前面的注意力分数

此外还有许多其他的变体,可执行查找了解。

相关推荐
摘星星的屋顶3 分钟前
论文阅读记录之《VelocityGPT 》
论文阅读·人工智能·深度学习·学习
格林威17 分钟前
工业相机如何通过光度立体成像技术实现高效精准的2.5D缺陷检测
人工智能·深度学习·数码相机·yolo·计算机视觉
MarkHD23 分钟前
大语言模型入门指南:从原理到实践应用
人工智能·语言模型·自然语言处理
mit6.82428 分钟前
[rStar] 策略与奖励大语言模型
人工智能·语言模型
CV-杨帆35 分钟前
论文阅读:arxiv 2023 Large Language Models are Not Stable Recommender Systems
论文阅读·人工智能·语言模型
虚拟现实旅人1 小时前
【机器学习】通过tensorflow实现猫狗识别的深度学习进阶之路
深度学习·机器学习·tensorflow
胡耀超1 小时前
5、Python-NumPy科学计算基础
开发语言·人工智能·python·深度学习·numpy
盼小辉丶1 小时前
生成模型与概率分布基础
深度学习·生成模型
colus_SEU2 小时前
【卷积神经网络详解与实例】4——感受野
人工智能·深度学习·计算机视觉·cnn
Sirius Wu2 小时前
私有化部署Ragflow的预训练模型
人工智能·python·语言模型·火山引擎