Transfomer的各层矩阵

一、输入

输入一句话:Hello CYZLAB the inspired world

每个单词为一个token

二、Embedding

这里的词向量维度为6,矩阵的行数为token数,列数是词向量的维度

|----------|---|---|---|---|---|---|
| 这列是注释不算 | | | | | | |
| hello | 1 | 2 | 2 | 6 | 9 | 4 |
| CYZLAB | 2 | 2 | 2 | 3 | 7 | 2 |
| the | 2 | 2 | 2 | 5 | 9 | 6 |
| inspired | 1 | 3 | 2 | 4 | 4 | 0 |
| world | 4 | 3 | 1 | 2 | 7 | 3 |

token数X词向量维度

三、位置嵌入

与Embedding相同

四、Q、K、V

Q、K、V的权重:权重权重的行数要与词向量的维度相同,列数任意

如果:权重的权重的尺寸为:词向量的维度X7

Q、K、V的尺寸:token数X7(上面我们自定义的列数)

五、自注意力机制

  • 每个词之间的关系(Q*K^T):token数X token数

  • 关系与V的加权和(Q*K^T)*V:token数X7

六、添加线性层

让自注意机制的结果与Embedding的联合的矩阵可以按位相加

线性层的权重尺寸:7X词向量的维度

线性层的转换结果:token数X词向量维度

七、add和归一化

尺寸:token数X词向量维度

此后的尺寸都是这样的:token数X词向量维度

相关推荐
撩妹小狗5 天前
科赫雪花--Python--数学原理--turtle绘图
python·线性代数·几何学
张3蜂5 天前
线性代数与AI的关系
人工智能·线性代数
汉克老师5 天前
GESP2023年12月认证C++二级( 第三部分编程题(2) 小杨的H字矩阵)
c++·算法·矩阵·循环结构·gesp二级·gesp2级
AI科技星5 天前
物理世界的几何建构:论统一场论的本体论革命与概念生成
人工智能·opencv·线性代数·算法·矩阵
没有bug.的程序员5 天前
订单系统重构史诗:从单体巨兽到微服务矩阵的演进、数据一致性内核与分布式事务
java·微服务·矩阵·重构·分布式事务·数据一致性·订单系统
super_lzb5 天前
【线性代数】矩阵第一讲:矩阵与矩阵的运算
线性代数·矩阵·考研数学·矩阵的计算
newbiai5 天前
TikTok矩阵账号引流怎么解决效率低成本高?
python·线性代数·矩阵
逆境不可逃5 天前
【从零入门23种设计模式08】结构型之组合模式(含电商业务场景)
线性代数·算法·设计模式·职场和发展·矩阵·组合模式
菜鸡儿齐6 天前
leetcode-搜索二维矩阵
算法·leetcode·矩阵
炽烈小老头6 天前
【每天学习一点算法 2026/02/24】矩阵置零
学习·算法·矩阵