Transformer and Pretrain Language Models3-2

transformer structure注意力机制的各种变体

第二种变体:

如果两个向量的维度不一样,我们就需要在中间加上一个权重矩阵,来实现他们之间的相乘,然后最后得到一个标量

第三种变体:

additive attention

它和前面的有一个比较大的不同,它使用了一层的前馈神经网络,来将两个向量变成一个标量,来得到注意力分数

在这个变体中,w1、w2和v,分别是两个权重矩阵和一个权重向量;tanh是一个激活函数。这样的话最后也可以得到一个标量,作为前面的注意力分数

此外还有许多其他的变体,可执行查找了解。

相关推荐
亚里随笔2 小时前
突破性框架TRAPO:统一监督微调与强化学习的新范式,显著提升大语言模型推理能力
人工智能·深度学习·机器学习·语言模型·llm·rlhf
AI即插即用4 小时前
即插即用系列 | TGRS 2025 MGAM:面向遥感微小目标检测的多尺度高斯注意力机制
图像处理·人工智能·深度学习·目标检测·计算机视觉·视觉检测
cqbzcsq4 小时前
蛋白质功能预测模型DAMPE论文阅读报告
论文阅读·人工智能·python·深度学习·生物信息学
啊巴矲5 小时前
小白从零开始勇闯人工智能:深度学习初级篇(初识深度学习及环境的配置与安装)
人工智能·深度学习
Fuly10245 小时前
多模态大模型应用技术栈
人工智能·深度学习·计算机视觉
雪花desu5 小时前
深度解析RAG(检索增强生成)技术
人工智能·深度学习·语言模型·chatgpt·langchain
wang_chao1186 小时前
Yolov5训练自定义数据集的步骤
深度学习·yolo·计算机视觉
weixin_402939997 小时前
【大模型】stable-diffusion-3.0和3.5模型训练
深度学习·stable diffusion
一代明君Kevin学长8 小时前
Transformer为什么使用多个注意力头?
人工智能·深度学习·transformer
小喵要摸鱼8 小时前
深度强化学习 Deep Q-learning:把深度学习引入强化学习
深度学习·强化学习