Transfomer的各层矩阵

一、输入

输入一句话:Hello CYZLAB the inspired world

每个单词为一个token

二、Embedding

这里的词向量维度为6,矩阵的行数为token数,列数是词向量的维度

|----------|---|---|---|---|---|---|
| 这列是注释不算 | | | | | | |
| hello | 1 | 2 | 2 | 6 | 9 | 4 |
| CYZLAB | 2 | 2 | 2 | 3 | 7 | 2 |
| the | 2 | 2 | 2 | 5 | 9 | 6 |
| inspired | 1 | 3 | 2 | 4 | 4 | 0 |
| world | 4 | 3 | 1 | 2 | 7 | 3 |

token数X词向量维度

三、位置嵌入

与Embedding相同

四、Q、K、V

Q、K、V的权重:权重权重的行数要与词向量的维度相同,列数任意

如果:权重的权重的尺寸为:词向量的维度X7

Q、K、V的尺寸:token数X7(上面我们自定义的列数)

五、自注意力机制

  • 每个词之间的关系(Q*K^T):token数X token数

  • 关系与V的加权和(Q*K^T)*V:token数X7

六、添加线性层

让自注意机制的结果与Embedding的联合的矩阵可以按位相加

线性层的权重尺寸:7X词向量的维度

线性层的转换结果:token数X词向量维度

七、add和归一化

尺寸:token数X词向量维度

此后的尺寸都是这样的:token数X词向量维度

相关推荐
小辉同志13 小时前
74. 搜索二维矩阵
c++·leetcode·矩阵·二分查找
战族狼魂19 小时前
40x40 矩阵控制系统
jvm·oracle·矩阵
一只小小的土拨鼠1 天前
【国奖冲刺/全网首发】2026年第十四届“泰迪杯”A、B、C题完整解题思路、代码与高质量论文大合集
c语言·矩阵·数据挖掘
普中科技2 天前
【普中 51-Ai8051 开发攻略】-- 第 10 章 矩阵按键实验
单片机·嵌入式硬件·矩阵·开发板·普中科技·ai8051u·aicube
歪歪歪比巴卜2 天前
2026年AI新媒体运营工具怎么选?核心功能与适用场景解析
大数据·矩阵·新媒体运营
m0_743106462 天前
【3D硬核】四元数(Quaternions)与旋转矩阵(Rotation)——三维空间中的旋转
人工智能·计算机视觉·3d·矩阵·几何学
别或许2 天前
线代中为什么左乘一个列满秩矩阵,不改变矩阵的秩?
人工智能·算法·矩阵
wfbcg2 天前
每日算法练习:LeetCode 54. 螺旋矩阵 ✅
算法·leetcode·矩阵
Star Learning Python2 天前
《简单线性代数》-20260414
线性代数·决策树·机器学习
AI科技星3 天前
v=c 物理理论核心参数转换表达式大全
开发语言·线性代数·算法·数学建模·平面