Transformer and Pretrain Language Models3-2

transformer structure注意力机制的各种变体

第二种变体:

如果两个向量的维度不一样,我们就需要在中间加上一个权重矩阵,来实现他们之间的相乘,然后最后得到一个标量

第三种变体:

additive attention

它和前面的有一个比较大的不同,它使用了一层的前馈神经网络,来将两个向量变成一个标量,来得到注意力分数

在这个变体中,w1、w2和v,分别是两个权重矩阵和一个权重向量;tanh是一个激活函数。这样的话最后也可以得到一个标量,作为前面的注意力分数

此外还有许多其他的变体,可执行查找了解。

相关推荐
玖日大大32 分钟前
LongCat-Flash-Omni:5600 亿参数开源全模态模型的技术革命与产业实践
人工智能·microsoft·语言模型
金融小师妹1 小时前
AI视角下黄金避风港属性的量化验证:基于2000-2025年历史数据的时序分析
大数据·人工智能·深度学习·1024程序员节
WenGyyyL1 小时前
基于昇腾平台的Qwen大模型推理部署实战:从模型转换到推理(含代码)
人工智能·python·语言模型·nlp·昇腾
AI魔王进化论.1 小时前
Transformer、强化学习融合?解决序列决策优化难题!!!
人工智能·深度学习·transformer
lqqjuly2 小时前
《AI Agent智能体与MCP开发实战》之构建个性化的arXiv科研论文MCP服务实战
人工智能·深度学习
AI视觉网奇2 小时前
手部检测 yolov5 实战笔记
python·深度学习·计算机视觉
LDG_AGI2 小时前
【推荐系统】深度学习训练框架(六):PyTorch DDP(DistributedDataParallel)数据并行分布式深度学习原理
人工智能·pytorch·分布式·python·深度学习·算法·spark
背心2块钱包邮2 小时前
第24节——手搓一个“ChatGPT”
人工智能·python·深度学习·自然语言处理·transformer
哥布林学者2 小时前
吴恩达深度学习课程三: 结构化机器学习项目 第二周:误差分析与学习方法(三)迁移学习
深度学习·ai