Transformer and Pretrain Language Models3-2

transformer structure注意力机制的各种变体

第二种变体:

如果两个向量的维度不一样,我们就需要在中间加上一个权重矩阵,来实现他们之间的相乘,然后最后得到一个标量

第三种变体:

additive attention

它和前面的有一个比较大的不同,它使用了一层的前馈神经网络,来将两个向量变成一个标量,来得到注意力分数

在这个变体中,w1、w2和v,分别是两个权重矩阵和一个权重向量;tanh是一个激活函数。这样的话最后也可以得到一个标量,作为前面的注意力分数

此外还有许多其他的变体,可执行查找了解。

相关推荐
Best_Me071 小时前
深度学习模块缝合
人工智能·深度学习
伪_装2 小时前
大语言模型(LLM)面试问题集
人工智能·语言模型·自然语言处理
狂小虎3 小时前
亲测解决self.transform is not exist
python·深度学习
Fxrain3 小时前
[深度学习]搭建开发平台及Tensor基础
人工智能·深度学习
大鹏的NLP博客3 小时前
基于 Transformer robert的情感分类任务实践总结之二——R-Drop
分类·transformer·r-dop
写代码的小阿帆4 小时前
Fractal Generative Models论文阅读笔记与代码分析
论文阅读·stable diffusion·transformer
一叶知秋秋4 小时前
python学习day39
人工智能·深度学习·学习
weixin_448781624 小时前
DenseNet算法 实现乳腺癌识别
pytorch·深度学习·神经网络
zzc9216 小时前
MATLAB仿真生成无线通信网络拓扑推理数据集
开发语言·网络·数据库·人工智能·python·深度学习·matlab
编程有点难6 小时前
Python训练打卡Day43
开发语言·python·深度学习