Transfomer的各层矩阵

一、输入

输入一句话:Hello CYZLAB the inspired world

每个单词为一个token

二、Embedding

这里的词向量维度为6,矩阵的行数为token数,列数是词向量的维度

|----------|---|---|---|---|---|---|
| 这列是注释不算 | | | | | | |
| hello | 1 | 2 | 2 | 6 | 9 | 4 |
| CYZLAB | 2 | 2 | 2 | 3 | 7 | 2 |
| the | 2 | 2 | 2 | 5 | 9 | 6 |
| inspired | 1 | 3 | 2 | 4 | 4 | 0 |
| world | 4 | 3 | 1 | 2 | 7 | 3 |

token数X词向量维度

三、位置嵌入

与Embedding相同

四、Q、K、V

Q、K、V的权重:权重权重的行数要与词向量的维度相同,列数任意

如果:权重的权重的尺寸为:词向量的维度X7

Q、K、V的尺寸:token数X7(上面我们自定义的列数)

五、自注意力机制

  • 每个词之间的关系(Q*K^T):token数X token数

  • 关系与V的加权和(Q*K^T)*V:token数X7

六、添加线性层

让自注意机制的结果与Embedding的联合的矩阵可以按位相加

线性层的权重尺寸:7X词向量的维度

线性层的转换结果:token数X词向量维度

七、add和归一化

尺寸:token数X词向量维度

此后的尺寸都是这样的:token数X词向量维度

相关推荐
斐夷所非8 小时前
线性代数 | 知识点整理 Ref 2
线性代数
努力毕业的小土博^_^1 天前
【EI/Scopus顶会矩阵】2025年5-6月涵盖统计建模、数智转型、信息工程、数字系统、自动化系统领域,硕博生执笔未来!
人工智能·深度学习·线性代数·计算机视觉·矩阵·自动化·媒体
重生之我是项目经理2 天前
spm12_fMRI 2*4混合方差分析 Flexible factorial 对比矩阵
matlab·矩阵
weixin_428498492 天前
矩阵平衡(Matrix Balancing)
线性代数·矩阵
闰土_RUNTU2 天前
机器学习中的数学(PartⅡ)——线性代数:2.1线性方程组
人工智能·线性代数·机器学习
AdsPower2 天前
什么是 矩阵号 ?为什么要做海外矩阵?
矩阵·指纹浏览器·adspower
rigidwill6663 天前
LeetCode hot 100—搜索二维矩阵
数据结构·c++·算法·leetcode·矩阵
lixy5793 天前
深度学习之线性代数基础
人工智能·深度学习·线性代数
_x_w4 天前
【10】数据结构的矩阵与广义表篇章
开发语言·数据结构·笔记·python·线性代数·链表·矩阵
徐行tag4 天前
组合数学——二项式系数
线性代数·概率论