TransFormer 视频笔记

TransFormer

Basics

接受一段文本,输出一个单词。

token -> (Embeding)-> high dimensional vector. 方向对应语义

​​​​​​​​​​​​

最初的向量也包含位置信息。1万多维。

Attention

除以dk 是为了数值稳定

将上下文的信息传给当前token。

attention机制给最初的generic embedding加个向量,将其移动到上下文对应的具体方向上。

Attention不仅精细化了嵌入向量的定义,还能将嵌入向量的信息传给其他的向量。

经过多层attention后,预测下一个token的计算过程完全取决于最后一个向量。

单头注意力 single head attention

Q: query 查寻矩阵 128*12288

WQ 将E(嵌入向量)映射低维空间中。Q是128*1

K key matrix 128*12288

Key矩阵同样将嵌入向量映射到低维空间中,得到第二个向量序列。当key与query的方向一致时(两个向量的点积越大越相关),就能认为他们匹配。

SoftMax 归一

Masking: 在训练时,不能提前知道答案,后级的信息不能传递给前级。为了避免后级token对前级的影响,将下半边矩阵设为-∞。

该pattern表明每个词与其他哪些词相关

Value matrix 12288*12288


MLP


相关推荐
tangweiguo0305198714 分钟前
Android WorkManager 完整实战教程(含完整文件)
android·kotlin
中屹指纹浏览器16 分钟前
2026住宅IP网络环境下指纹浏览器稳定性优化与工程实践
经验分享·笔记
loitawu38 分钟前
Rockchip Android16 系统裁剪指南
android·android16·android裁剪·系统裁剪·rockchip app
云边散步38 分钟前
godot2D游戏教程系列二(20)
笔记·学习·音视频
DANGAOGAO1 小时前
Transformer学习
深度学习·学习·transformer
年纪青青1 小时前
NanoPi Neo移植笔记(U-Boot v2025.10 + Linux Kernel 6.18 + Ubuntu 24.04 根文件系统)
linux·笔记·ubuntu·nanopi neo·linux镜像
小羊子说1 小时前
关于车机中的升级流程小结(SOC、MCU、4G升级流程)
android·adb·性能优化·车载系统
骇客野人1 小时前
用python实现Transformer
人工智能·深度学习·transformer
小超同学你好1 小时前
Transformer 16. DeepSeek-V3 架构解析:在 MLA + DeepSeekMoE 上的规模化与训练/系统创新
架构·transformer
肖。35487870942 小时前
[技巧-11]AndroidManifest.xml完善小技巧。
android