02 Transformer 基础:Self-Attention 原理详解

1. Self-Attention?

ViT 的核心不是"把图像切成 patch"这么简单。

图像切成 patch 只是第一步。真正让 ViT 能够建模图像全局关系的,是 Transformer Encoder 中的 Self-Attention。在 CNN 中,图像信息通常通过卷积层逐步传播。一个像素或者一个局部区域想要和远处区域发生关系,往往需要经过多层卷积堆叠。而在 Self-Attention 中,所有 token 之间都可以直接计算关系。如果放到 ViT 中理解:

每个图像 patch 都是一个 token;

Self-Attention 会计算每个 patch 和其他 patch 的关系;

模型根据这些关系重新聚合图像信息。

也就是说,Self-Attention 让 ViT 不再只能从局部一步步看图,而是可以直接比较图像中任意两个 patch 之间的联系。这就是它和 CNN 最核心的区别之一。

2. 从一个简单例子理解 Attention

在正式讲公式之前,我们先用一个简单例子理解 Attention。假设一句话是:

我 喜欢 计算机 视觉

这句话中有 4 个 token。当模型处理"视觉"这个词时,它可能需要关注前面的"计算机",因为"计算机视觉"是一个整体概念。当模型处理"喜欢"这个词时,它可能需要关注"我",因为"我"是动作的发出者。所以,Attention 的核心思想可以简单理解为:当前 token 在更新自己的表示时,不是只看自己,而是会根据相关性去关注其他 token。

换句话说,每个 token 都会问一个问题:在当前上下文中,我应该重点关注哪些 token?这个"关注程度"就是 attention weight。

3. Query、Key、Value 是什么?

Self-Attention 中最容易让人困惑的三个概念就是:

复制代码
Query
Key
Value

它们通常简写为:

复制代码
Q, K, V

很多初学者第一次看到这三个名字会觉得很抽象。其实可以用"检索信息"的方式来理解。

3.1 用搜索来理解 Q、K、V

假设你在搜索引擎中输入一个问题:

Vision Transformer 是什么?

这个问题就类似于 Query。搜索引擎会拿你的问题和网页中的关键词、标题、内容进行匹配,这些被匹配的信息可以类比为 Key。最后,搜索引擎返回给你的具体网页内容,可以类比为 Value。所以可以简单理解为:

Query:我想找什么?

Key:我有什么特征可以被匹配?

Value:如果匹配上了,我能提供什么信息?

放到 Self-Attention 中,每个 token 都会生成自己的 Query、Key 和 Value。

3.2 在 token 中理解 Q、K、V

假设输入有 4 个 token:

复制代码
token_1, token_2, token_3, token_4

每个 token 都会通过不同的线性层生成三个向量:

复制代码
Q:用来查询其他 token
K:用来被其他 token 匹配
V:真正被聚合的信息内容

例如,当 token_1 想更新自己的表示时,它会用自己的 Query 去和所有 token 的 Key 做匹配。匹配分数越高,说明 token_1 越应该关注那个 token。然后再根据这些分数,对所有 token 的 Value 做加权求和。这就是 Self-Attention 的核心过程。

相关推荐
声光界几秒前
《声音与音乐中的情感理解及人机交互设计》
人工智能·人机交互·声学
voidmort2 分钟前
13. 强化学习中的评估、奖励设计与 Reward Hacking
人工智能
Studying 开龙wu3 分钟前
16位工业灰度图的深度学习预处理:从方法选择到ImageJ实战
人工智能·深度学习
烟雨江南7857 分钟前
特高压输电线路带电作业直升机吊篮与强电磁感应放电:基于“灵声智库”空间自适应滤波与声纹授权的离线语音控制指令方案
人工智能·ffmpeg·webrtc·语音识别·ai质检
清辞8539 分钟前
入门大模型工程师第十课----学习总结
大数据·人工智能·深度学习·学习·语言模型
zhangfeng11339 分钟前
那nvidia orim车载gpu tee安全飞地 和天垓 100 gpgpu的 飞地 ,大概有多大存储量 ,解密流程
人工智能·深度学习·安全·语言模型·gpu算力·芯片
蔡不菜和他的uU们23 分钟前
vLLM实践之个人AI基建——云端vLLM+SSH Tunnel+本地Cherry Studio
人工智能·ssh·vllm
黄啊码28 分钟前
8个AI,同一道高考作文题,同一个结果:我的那篇最好
人工智能
m0_7372469829 分钟前
QDKT产品拆解&设计
人工智能
xinlianyq32 分钟前
TikTok短视频生成工具哪家好?跨境出海如何用 AI 实现爆款视频复刻
人工智能·aigc