Transfomer的各层矩阵

一、输入

输入一句话:Hello CYZLAB the inspired world

每个单词为一个token

二、Embedding

这里的词向量维度为6,矩阵的行数为token数,列数是词向量的维度

|----------|---|---|---|---|---|---|
| 这列是注释不算 | | | | | | |
| hello | 1 | 2 | 2 | 6 | 9 | 4 |
| CYZLAB | 2 | 2 | 2 | 3 | 7 | 2 |
| the | 2 | 2 | 2 | 5 | 9 | 6 |
| inspired | 1 | 3 | 2 | 4 | 4 | 0 |
| world | 4 | 3 | 1 | 2 | 7 | 3 |

token数X词向量维度

三、位置嵌入

与Embedding相同

四、Q、K、V

Q、K、V的权重:权重权重的行数要与词向量的维度相同,列数任意

如果:权重的权重的尺寸为:词向量的维度X7

Q、K、V的尺寸:token数X7(上面我们自定义的列数)

五、自注意力机制

  • 每个词之间的关系(Q*K^T):token数X token数

  • 关系与V的加权和(Q*K^T)*V:token数X7

六、添加线性层

让自注意机制的结果与Embedding的联合的矩阵可以按位相加

线性层的权重尺寸:7X词向量的维度

线性层的转换结果:token数X词向量维度

七、add和归一化

尺寸:token数X词向量维度

此后的尺寸都是这样的:token数X词向量维度

相关推荐
3GPP仿真实验室1 小时前
【MATLAB源码】CORDIC-QR :基于Cordic硬件级矩阵QR分解
开发语言·matlab·矩阵
Σίσυφος19002 小时前
PCL 法向量估计-PCA邻域点(经典 kNN 协方差)的协方差矩阵
人工智能·线性代数·矩阵
_OP_CHEN14 小时前
【算法基础篇】(五十七)线性代数之矩阵乘法从入门到实战:手撕模板 + 真题详解
线性代数·算法·矩阵·蓝桥杯·c/c++·矩阵乘法·acm/icpc
芷栀夏15 小时前
CANN ops-math:从矩阵运算到数值计算的全维度硬件适配与效率提升实践
人工智能·神经网络·线性代数·矩阵·cann
种时光的人1 天前
CANN仓库核心解读:catlass夯实AIGC大模型矩阵计算的算力基石
线性代数·矩阵·aigc
Zfox_1 天前
CANN Catlass 算子模板库深度解析:高性能矩阵乘(GEMM)原理、融合优化与模板化开发实践
线性代数·矩阵
lbb 小魔仙1 天前
面向 NPU 的高性能矩阵乘法:CANN ops-nn 算子库架构与优化技术
线性代数·矩阵·架构
空白诗1 天前
CANN ops-nn 算子解读:大语言模型推理中的 MatMul 矩阵乘实现
人工智能·语言模型·矩阵
劈星斩月1 天前
线性代数-3Blue1Brown《线性代数的本质》特征向量与特征值(12)
线性代数·特征值·特征向量·特征方程
池央2 天前
ops-nn 算子库中的数据布局与混合精度策略:卷积、矩阵乘法与 RNN 的优化实践
rnn·线性代数·矩阵