Transformer and Pretrain Language Models3-2

transformer structure注意力机制的各种变体

第二种变体:

如果两个向量的维度不一样,我们就需要在中间加上一个权重矩阵,来实现他们之间的相乘,然后最后得到一个标量

第三种变体:

additive attention

它和前面的有一个比较大的不同,它使用了一层的前馈神经网络,来将两个向量变成一个标量,来得到注意力分数

在这个变体中,w1、w2和v,分别是两个权重矩阵和一个权重向量;tanh是一个激活函数。这样的话最后也可以得到一个标量,作为前面的注意力分数

此外还有许多其他的变体,可执行查找了解。

相关推荐
胡玉洋31 分钟前
从新手到高手:全面解析 AI 时代的「魔法咒语」——Prompt
人工智能·ai·prompt·transformer·协议
kyle~44 分钟前
深度学习框架---TensorFlow概览
人工智能·深度学习·tensorflow
夜幕龙1 小时前
LeRobot 项目部署运行逻辑(七)—— ACT 在 Mobile ALOHA 训练与部署
人工智能·深度学习·机器学习
机器学习之心2 小时前
贝叶斯优化Transformer融合支持向量机多变量回归预测,附相关性气泡图、散点密度图,Matlab实现
支持向量机·transformer·多变量回归预测·贝叶斯优化t·相关性气泡图
Echo``2 小时前
40:相机与镜头选型
开发语言·人工智能·深度学习·计算机视觉·视觉检测
Christo32 小时前
关于在深度聚类中Representation Collapse现象
人工智能·深度学习·算法·机器学习·数据挖掘·embedding·聚类
依然易冷2 小时前
Manus AI 原理深度解析第三篇:Tools
人工智能·深度学习·机器学习
二川bro3 小时前
AI、机器学习、深度学习:一文厘清三者核心区别与联系
人工智能·深度学习·机器学习
AIGC方案3 小时前
深度学习、机器学习及强化学习的联系与区别
人工智能·深度学习·机器学习
盼小辉丶4 小时前
TensorFlow深度学习实战(16)——注意力机制详解
深度学习·tensorflow·注意力机制