TransFormer 视频笔记

TransFormer

Basics

接受一段文本,输出一个单词。

token -> (Embeding)-> high dimensional vector. 方向对应语义

​​​​​​​​​​​​

最初的向量也包含位置信息。1万多维。

Attention

除以dk 是为了数值稳定

将上下文的信息传给当前token。

attention机制给最初的generic embedding加个向量,将其移动到上下文对应的具体方向上。

Attention不仅精细化了嵌入向量的定义,还能将嵌入向量的信息传给其他的向量。

经过多层attention后,预测下一个token的计算过程完全取决于最后一个向量。

单头注意力 single head attention

Q: query 查寻矩阵 128*12288

WQ 将E(嵌入向量)映射低维空间中。Q是128*1

K key matrix 128*12288

Key矩阵同样将嵌入向量映射到低维空间中,得到第二个向量序列。当key与query的方向一致时(两个向量的点积越大越相关),就能认为他们匹配。

SoftMax 归一

Masking: 在训练时,不能提前知道答案,后级的信息不能传递给前级。为了避免后级token对前级的影响,将下半边矩阵设为-∞。

该pattern表明每个词与其他哪些词相关

Value matrix 12288*12288


MLP


相关推荐
二流小码农7 小时前
鸿蒙开发:上传一张参考图片便可实现页面功能
android·ios·harmonyos
鹏程十八少7 小时前
4.Android 30分钟手写一个简单版shadow, 从零理解shadow插件化零反射插件化原理
android·前端·面试
Kapaseker8 小时前
一杯美式搞定 Kotlin 空安全
android·kotlin
三少爷的鞋8 小时前
Android 协程时代,Handler 应该退休了吗?
android
tingshuo291717 小时前
S001 【模板】从前缀函数到KMP应用 字符串匹配 字符串周期
笔记
火柴就是我1 天前
让我们实现一个更好看的内部阴影按钮
android·flutter
砖厂小工1 天前
用 GLM + OpenClaw 打造你的 AI PR Review Agent — 让龙虾帮你审代码
android·github
张拭心1 天前
春节后,有些公司明确要求 AI 经验了
android·前端·人工智能
张拭心1 天前
Android 17 来了!新特性介绍与适配建议
android·前端
Kapaseker1 天前
Compose 进阶—巧用 GraphicsLayer
android·kotlin