Transformer and Pretrain Language Models3-2

ringthebell2024-01-25 18:10

transformer structure注意力机制的各种变体

第二种变体：

如果两个向量的维度不一样，我们就需要在中间加上一个权重矩阵，来实现他们之间的相乘，然后最后得到一个标量

第三种变体：

additive attention

它和前面的有一个比较大的不同，它使用了一层的前馈神经网络，来将两个向量变成一个标量，来得到注意力分数

在这个变体中，w1、w2和v，分别是两个权重矩阵和一个权重向量；tanh是一个激活函数。这样的话最后也可以得到一个标量，作为前面的注意力分数

此外还有许多其他的变体，可执行查找了解。

上一篇：一文深度解读多模态大模型视频检索技术的实现与使用

下一篇：redis漏洞研究

热门推荐

01Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 02全球最强模型Grok4，国内已可免费使用！（附教程）03UV安装并设置国内源 04KGG转MP3工具|非KGM文件|解密音频 05腾讯还是太全面了，限时免费！超全CodeBuddy IDE保姆级教程！（附案例）06Cursor 终端“卡死/无响应”问题的解法 07如何在 Cursor 中继续使用 Claude 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09VMware Workstation Pro虚拟机的下载和安装图文保姆级教程(附下载链接)10ChatGPT 5发布日期揭秘：2025年8月上线，多模态推理能力全面升级