Transformer and Pretrain Language Models3-2

transformer structure注意力机制的各种变体

第二种变体:

如果两个向量的维度不一样,我们就需要在中间加上一个权重矩阵,来实现他们之间的相乘,然后最后得到一个标量

第三种变体:

additive attention

它和前面的有一个比较大的不同,它使用了一层的前馈神经网络,来将两个向量变成一个标量,来得到注意力分数

在这个变体中,w1、w2和v,分别是两个权重矩阵和一个权重向量;tanh是一个激活函数。这样的话最后也可以得到一个标量,作为前面的注意力分数

此外还有许多其他的变体,可执行查找了解。

相关推荐
子午几秒前
【垃圾识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目选题+TensorFlow+图像识别
图像处理·人工智能·python·深度学习
kolaseen17 分钟前
mxnet同步机制
人工智能·深度学习·机器学习·gpu·cuda·mxnet
kolaseen19 分钟前
mxnet 的显存分配机制
人工智能·深度学习·机器学习·cuda·mxnet
是小赵鸭.20 分钟前
云计算实训50——Kubernetes基础命令、常用指令
linux·深度学习·容器·kubernetes·云计算·学习方法
爱研究的小牛1 小时前
Lumen5——AI视频制作,提取关键信息生成带有视觉效果的视频
人工智能·深度学习·aigc
hawk2014bj1 小时前
使用开源 Whisper 视频转文字
深度学习·whisper·音视频
qq_15321452642 小时前
【2020工业图像异常检测文献】SPADE
图像处理·深度学习·神经网络·目标检测·机器学习·计算机视觉·视觉检测
AI大模型知识分享3 小时前
零基础入门AI:一键本地运行各种开源大语言模型 - Ollama
人工智能·gpt·语言模型·自然语言处理·chatgpt·开源·prompt
985小水博一枚呀10 小时前
【深度学习|可视化】如何以图形化的方式展示神经网络的结构、训练过程、模型的中间状态或模型决策的结果??
人工智能·python·深度学习·神经网络·机器学习·计算机视觉·cnn
CyreneSimon11 小时前
使用 LoRA 进行模型微调的步骤
python·transformer