Transformer and Pretrain Language Models3-2

transformer structure注意力机制的各种变体

第二种变体:

如果两个向量的维度不一样,我们就需要在中间加上一个权重矩阵,来实现他们之间的相乘,然后最后得到一个标量

第三种变体:

additive attention

它和前面的有一个比较大的不同,它使用了一层的前馈神经网络,来将两个向量变成一个标量,来得到注意力分数

在这个变体中,w1、w2和v,分别是两个权重矩阵和一个权重向量;tanh是一个激活函数。这样的话最后也可以得到一个标量,作为前面的注意力分数

此外还有许多其他的变体,可执行查找了解。

相关推荐
DreamLife☼12 分钟前
OpenBCI-脑机接口在康复医疗中的应用
深度学习·cnn·脑电·康复·fes·openbci·外骨骼
硅谷秋水1 小时前
面向长上下文自动驾驶的规划对齐Token压缩
人工智能·深度学习·机器学习·计算机视觉·自动驾驶
郭泽斌之心1 小时前
MQL5 EA 怎么和外部程序通信?文件三件套协议:参数热更新不重启、状态心跳、远程触发
人工智能·经验分享·深度学习·ea·fay数字人·easydeal
AI人工智能+1 小时前
智能文档抽取系统以专业的文档解析底座和大模型智能语义理解能力为核心,洞察文档的语义内涵与逻辑结构
深度学习·自然语言处理·ocr·文档抽取
nap-joker2 小时前
用于转录组信息精确肿瘤学和药物机制分析的多模态可解释深度学习
人工智能·深度学习·药物敏感性·多层级生物网络·细胞异质性·可解释性多模态
YOLO数据集集合2 小时前
无人机山地灾害巡检数据集 | 滑坡多区域实例分割 遥感影像解译 地质灾害预警深度学习数据10296期
人工智能·深度学习·目标检测·计算机视觉·无人机
手写码匠3 小时前
手写 GraphRAG:从零实现图增强检索增强生成系统
人工智能·深度学习·算法·aigc
装不满的克莱因瓶3 小时前
【自动驾驶领域】学习 Cityscapes 数据集——城市街景语义理解的标准基准
人工智能·pytorch·python·深度学习·学习·机器学习·自动驾驶
如此这般英俊4 小时前
手搓Claude Code-第三章 permission
人工智能·python·语言模型
清辞8534 小时前
产品经理需求推进流程
大数据·深度学习·学习·产品经理