Transfomer的各层矩阵

一、输入

输入一句话:Hello CYZLAB the inspired world

每个单词为一个token

二、Embedding

这里的词向量维度为6,矩阵的行数为token数,列数是词向量的维度

|----------|---|---|---|---|---|---|
| 这列是注释不算 | | | | | | |
| hello | 1 | 2 | 2 | 6 | 9 | 4 |
| CYZLAB | 2 | 2 | 2 | 3 | 7 | 2 |
| the | 2 | 2 | 2 | 5 | 9 | 6 |
| inspired | 1 | 3 | 2 | 4 | 4 | 0 |
| world | 4 | 3 | 1 | 2 | 7 | 3 |

token数X词向量维度

三、位置嵌入

与Embedding相同

四、Q、K、V

Q、K、V的权重:权重权重的行数要与词向量的维度相同,列数任意

如果:权重的权重的尺寸为:词向量的维度X7

Q、K、V的尺寸:token数X7(上面我们自定义的列数)

五、自注意力机制

  • 每个词之间的关系(Q*K^T):token数X token数

  • 关系与V的加权和(Q*K^T)*V:token数X7

六、添加线性层

让自注意机制的结果与Embedding的联合的矩阵可以按位相加

线性层的权重尺寸:7X词向量的维度

线性层的转换结果:token数X词向量维度

七、add和归一化

尺寸:token数X词向量维度

此后的尺寸都是这样的:token数X词向量维度

相关推荐
weisian1514 小时前
力扣经典算法篇-42-矩阵置零(辅助数组标记法,使用两个标记变量)
算法·leetcode·矩阵
设计师小聂!8 小时前
力扣热题100--------240.搜索二维矩阵
java·算法·leetcode·矩阵
盛寒1 天前
二次型 线性代数
线性代数
Ghost-Face2 天前
Ctorch开发日志——矩阵乘法优化及数学原理
矩阵·ctorch
dllmayday3 天前
3D空间中的变换矩阵
线性代数·3d·矩阵
是数学系的小孩儿3 天前
论文:M矩阵
线性代数·矩阵
冲帕Chompa3 天前
今日矩阵系列
数据结构·算法·矩阵
xueyongfu3 天前
PTX指令集基础以及warp级矩阵乘累加指令介绍
人工智能·线性代数·算法·矩阵
小妖同学学AI4 天前
deepseek+飞书多维表格 打造小红书矩阵
人工智能·矩阵·飞书
细嗅蔷薇@4 天前
C语言在键盘上输入一个3行3列矩阵的各个元素的值(值为整数),然后输出主对角线元素的积,并在fun()函数中输出。
c语言·算法·矩阵