TransFormer 视频笔记

TransFormer

Basics

接受一段文本,输出一个单词。

token -> (Embeding)-> high dimensional vector. 方向对应语义

​​​​​​​​​​​​

最初的向量也包含位置信息。1万多维。

Attention

除以dk 是为了数值稳定

将上下文的信息传给当前token。

attention机制给最初的generic embedding加个向量,将其移动到上下文对应的具体方向上。

Attention不仅精细化了嵌入向量的定义,还能将嵌入向量的信息传给其他的向量。

经过多层attention后,预测下一个token的计算过程完全取决于最后一个向量。

单头注意力 single head attention

Q: query 查寻矩阵 128*12288

WQ 将E(嵌入向量)映射低维空间中。Q是128*1

K key matrix 128*12288

Key矩阵同样将嵌入向量映射到低维空间中,得到第二个向量序列。当key与query的方向一致时(两个向量的点积越大越相关),就能认为他们匹配。

SoftMax 归一

Masking: 在训练时,不能提前知道答案,后级的信息不能传递给前级。为了避免后级token对前级的影响,将下半边矩阵设为-∞。

该pattern表明每个词与其他哪些词相关

Value matrix 12288*12288


MLP


相关推荐
民乐团扒谱机26 分钟前
【读论文】基于非线性光学的全光子人工神经网络处理器
论文阅读·笔记·论文
xian_wwq39 分钟前
【学习笔记】3 种零防御 UAC 绕过技术
笔记·学习
zjeweler1 小时前
“网安+护网”终极300多问题面试笔记-1共3-内网&域相关
笔记·web安全·网络安全·面试·职场和发展·护网面试
夜瞬1 小时前
NLP学习笔记04:情感分析——从词典方法到 BERT
笔记·学习·自然语言处理
夜瞬1 小时前
NLP学习笔记04:情感分析实践练习实现说明
笔记·学习·自然语言处理
lhb07091 小时前
openssl预编译动态库dll下载(OpenSSL 1.1.1w最新版 OpenSSL 3.5.6 LTS)
笔记
2501_916007471 小时前
iOS逆向工程:详细解析ptrace反调试机制的破解方法与实战步骤
android·macos·ios·小程序·uni-app·cocoa·iphone
風清掦1 小时前
【江科大STM32学习笔记-10】I2C通信协议 - 10.2 硬件 I2C 读写MPU6050
笔记·stm32·单片机·嵌入式硬件·学习
空中海2 小时前
第三章:状态管理与 Jetpack 架构组件
android·架构
峥嵘life2 小时前
Android + Kiro AI软件开发实战教程
android·后端·学习