TransFormer 视频笔记

TransFormer

Basics

接受一段文本,输出一个单词。

token -> (Embeding)-> high dimensional vector. 方向对应语义

​​​​​​​​​​​​

最初的向量也包含位置信息。1万多维。

Attention

除以dk 是为了数值稳定

将上下文的信息传给当前token。

attention机制给最初的generic embedding加个向量,将其移动到上下文对应的具体方向上。

Attention不仅精细化了嵌入向量的定义,还能将嵌入向量的信息传给其他的向量。

经过多层attention后,预测下一个token的计算过程完全取决于最后一个向量。

单头注意力 single head attention

Q: query 查寻矩阵 128*12288

WQ 将E(嵌入向量)映射低维空间中。Q是128*1

K key matrix 128*12288

Key矩阵同样将嵌入向量映射到低维空间中,得到第二个向量序列。当key与query的方向一致时(两个向量的点积越大越相关),就能认为他们匹配。

SoftMax 归一

Masking: 在训练时,不能提前知道答案,后级的信息不能传递给前级。为了避免后级token对前级的影响,将下半边矩阵设为-∞。

该pattern表明每个词与其他哪些词相关

Value matrix 12288*12288


MLP


相关推荐
野生的码农7 小时前
放过自己,降低预期,及时行乐
android·ai编程
2501_926978337 小时前
“LLM的智能本质--AGI的可能路径--人类的意识本质”三者的统一基底(5.0理论解读)
人工智能·经验分享·笔记·深度学习·机器学习·ai写作·agi
لا معنى له7 小时前
WAM与AC-WM:具身智能时代的世界动作模型与动作条件世界模型
人工智能·笔记·学习
huwuhang7 小时前
索尼PS3游戏合集【中文游戏】8.12T 1430个游戏+PS3模拟器
android·游戏·智能手机·游戏机·电视
Wilber的技术分享9 小时前
【LeetCode高频手撕题 2】面试中常见的手撕算法题(小红书)
笔记·算法·leetcode·面试
Grackers9 小时前
Android Perfetto 系列 5:Android App 基于 Choreographer 的渲染流程
android
踩着两条虫9 小时前
AI驱动的Vue3应用开发平台深入探究(十):物料系统之内置组件库
android·前端·vue.js·人工智能·低代码·系统架构·rxjava
sam.li10 小时前
JADX MCP 原理与使用部署
android·逆向·jadx
愚昧之山绝望之谷开悟之坡10 小时前
合格境外投资者
笔记
冬奇Lab10 小时前
Android 15音频子系统(五):AudioPolicyService策略管理深度解析
android·音视频开发·源码阅读