为什么self-attention除以根号dk而不是其他值

最近在看transformers源码的过程中一直有个疑问,为什么self-attention在Q向量与K向量转置相乘后要除以根号dk而不是dk或是其他值,借此机会做个记录。

为什么要除以一个数?

self-attention在计算注意力分数的时候,用query向量与key向量转置相乘,再除以根号d_k,经过softmax之后得到注意力权重,源码实现如下:

python 复制代码
scores = torch.matmul(query, key.transpose(-2, -1)) \ math.sqrt(d_k)
p_attn = F.softmax(scores, dim = -1)

那为什么要除以一个数呢?这与softmax的求导有关,下面给出softmax计算公式:

另softmax的表达式为x,则softmax求导结果为x*(1-x),若某项zi偏大或偏小,则softmax计算结果趋向于1或0,而其导数则会趋向于0,造成梯度消失,不利于训练的稳定,所以在计算完注意力分数后要除以一个数,以稳定其梯度。

为什么要除以根号dk呢?

在明白为什么要除以一个数之后,那么问题来了,为什么除以的是根号dk呢,而不是dk、dk的平方或者其他数值呢?

首先假设q向量与k向量是均值为0、方差为1的随机向量,则q向量与k向量相乘之后,方差随维度线性增长,相乘后方差为dk,标准差为根号dk。

根据方差的性质:

因此可以做出以下推导,在q向量与k向量乘积后除以根号dk,可以将原来的方差缩放为1,将输出控制在合理的范围内,为后续的Softmax计算提供了稳定的输入。

相关推荐
迁 凉18 小时前
【安装pi0.5记录】
人工智能
穗余18 小时前
java大模型应用开发里的SseEmitter和websocket区别
java·开发语言·人工智能·websocket
薛定猫AI18 小时前
【技术干货】Google Stitch 升级深度解析:从“AI 模型出图”到“AI 原生设计工作空间”
人工智能
慵懒的猫mi19 小时前
deepin UOS AI 助手接入飞书(Feishu)配置指南
linux·人工智能·ai·gpt-3·飞书·文心一言·deepin
凸头19 小时前
Agent 与 RAG 效果评估::全自动化评估体系落地实践
人工智能·agent·rag
White-Legend19 小时前
我用GTP5.4写了一个飞书编辑器
人工智能·gpt·编辑器·飞书·ai编程
一RTOS一19 小时前
向“新”而行,以“实”作答:东土以硬核科技推动人工智能和制造业“双向奔赴”
人工智能·科技·机器人解决方案·鸿道实时操作系统·国产嵌入式操作系统选型·具身智能操作系统
PHOSKEY19 小时前
3D工业相机五轴联动点胶:AI/AR镜高精密胶路涂布实现方案
人工智能·3d·传感器
慵懒的猫mi19 小时前
deepin UOS AI 助手接入钉钉(DingTalk)配置指南
linux·数据库·人工智能·ai·钉钉·deepin
执笔论英雄19 小时前
【RL】LLM-in-Sandbox Elicits General Agentic Intelligence
深度学习