Transfomer的各层矩阵

一、输入

输入一句话:Hello CYZLAB the inspired world

每个单词为一个token

二、Embedding

这里的词向量维度为6,矩阵的行数为token数,列数是词向量的维度

|----------|---|---|---|---|---|---|
| 这列是注释不算 | | | | | | |
| hello | 1 | 2 | 2 | 6 | 9 | 4 |
| CYZLAB | 2 | 2 | 2 | 3 | 7 | 2 |
| the | 2 | 2 | 2 | 5 | 9 | 6 |
| inspired | 1 | 3 | 2 | 4 | 4 | 0 |
| world | 4 | 3 | 1 | 2 | 7 | 3 |

token数X词向量维度

三、位置嵌入

与Embedding相同

四、Q、K、V

Q、K、V的权重:权重权重的行数要与词向量的维度相同,列数任意

如果:权重的权重的尺寸为:词向量的维度X7

Q、K、V的尺寸:token数X7(上面我们自定义的列数)

五、自注意力机制

  • 每个词之间的关系(Q*K^T):token数X token数

  • 关系与V的加权和(Q*K^T)*V:token数X7

六、添加线性层

让自注意机制的结果与Embedding的联合的矩阵可以按位相加

线性层的权重尺寸:7X词向量的维度

线性层的转换结果:token数X词向量维度

七、add和归一化

尺寸:token数X词向量维度

此后的尺寸都是这样的:token数X词向量维度

相关推荐
醒过来摸鱼1 小时前
9.12 sinc插值
python·线性代数·算法·numpy
虹科测试测量2 小时前
德思特干货 | 单通道、多通道衰减器与衰减矩阵:如何选择合适的衰减方案
服务器·测试工具·算法·矩阵
ada7_7 小时前
LeetCode(python)——73.矩阵置零
python·算法·leetcode·矩阵
羑悻的小杀马特8 小时前
远程也能追热点:NewsNow精准筛选热榜,CPolar让信息获取不受地点限制
矩阵·cpolar·热点数据·newsnow
醒过来摸鱼1 天前
9.11 傅里叶变换家族介绍
线性代数·算法·概率论
醒过来摸鱼1 天前
9.8 贝塞尔曲线
线性代数·算法·numpy
xier_ran1 天前
Python 切片(Slicing)完全指南:从基础到多维矩阵
开发语言·python·矩阵
lijil1681 天前
Hypermesh估算发动机缸体质量矩阵
线性代数·矩阵
FanXing_zl2 天前
快速掌握线性代数:核心概念与深度解析
线性代数·算法·机器学习
点云SLAM2 天前
四元数 (Quaternion)微分-四元数导数的矩阵表示推导(8)
线性代数·算法·计算机视觉·矩阵·机器人·slam·四元数