面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2*根号d或者3*根号d

首先先罗列几个参考文章,大家之后可以去看看,加深理解:

好,步入正题,我们假定各位读者看过上面👆几篇文章,已经了解了,为什么自注意力机制中要使用 进行缩放,然后我们进一步进行探究,为什么不是

1、实例

1.点击没有缩放的时候,标准差的范围

  • 在【-】,有68.26%的值在这个区间,
  • 在【-2,2】,有95.45%的值在这个区间,
  • 在【-3,3】,有99.73%的值在这个区间,

参考:正态分布_百度百科

2.点击缩放的时候,标准差的范围从 到 1

  • x在【-1,1】,在【0.37,2.72】有68.26%的值在这个区间,
  • x在【-2,2】,有【0.14,7.39】95.45%的值在这个区间,
  • x在【-3,3】,有【0.05,20.09】99.73%的值在这个区间,

3.点击缩放2的时候,标准差的范围从 到 0.5

  • x在【-0.5,0.5】,在【0.61,1.65】有68.26%的值在这个区间,
  • x在【-1,1】,有【0.37,2.72】95.45%的值在这个区间,
  • x在【-1.5,1.5】,有【0.22,4.48】99.73%的值在这个区间,

2、实例总结(重点)

通过上述的不同缩放比例,大家应该可以比较清晰的发现,以一个标准差(68.26%)为例,随着缩放比例加大,变化范围减小,点击值被过度压缩,导致相对趋于均匀,从而无法很好的捕捉不同特征之间的差异,趋于大家都一样的感觉,区分度被缩小。大家感兴趣的可以实操看一下,softmax在不同缩放比例下的分布情况。

3、梯度特性

若除以2,Softmax输入的方差过小,导致梯度值普遍偏低,模型训练效率显著下降。例如,在机器翻译任务中,使用2​的BLEU分数可能下降2-3个点。

4、实验验证

  • 收敛速度对比

在WMT14英德翻译任务中,使用的Transformer模型在5万步迭代后达到收敛,而使用2的模型需8万步迭代,且最终BLEU分数低1.5个点。

  • 数值稳定性测试

通过模拟高维向量(d=1024)的点积计算,发现:

a. 缩放后,Softmax输入的最大值约为5,最小值约为-5,梯度值集中在[0.1,0.5];

b. 2缩放后,Softmax输入的最大值约为2.5,最小值约为-2.5,梯度值集中在[0.01,0.1],导致训练缓慢。

  • 泛化能力分析
    • 在GLUE基准测试中,缩放的模型在MNLI、QQP等任务上的准确率比2模型高1-2个百分点,表明其泛化能力更强。

参考:

https://zhuanlan.zhihu.com/p/32150751004

相关推荐
实在智能RPA3 分钟前
Agent 在审计合规场景有哪些应用?——2026年企业智能自动化合规落地全解析
网络·人工智能·ai·自动化
竹之却5 分钟前
【Agent-阿程】Self-Improving Agent 全详解:从原理到落地,打造会自我进化的AI智能体
人工智能·agent·skills·opencalw·self-improving
CypressTel15 分钟前
AI的“阿喀琉斯之踵”:当技术依赖成为双刃剑——赛柏特安全观察
网络·人工智能·ai
Duran.L18 分钟前
从限购到畅通:GLM-5.1 Coding Plan接入攻略
人工智能·ai·软件工程·个人开发·ai编程
云烟成雨TD25 分钟前
Spring AI Alibaba 1.x 系列【11】Spring AI Models 扩展:DashScope
java·人工智能·spring
技术小黑26 分钟前
TensorFlow学习系列10 | 数据增强
python·深度学习·tensorflow2
港股研究社28 分钟前
投在预期差:市场还没定价百融的Agent未来
人工智能
AC赳赳老秦34 分钟前
OpenClaw image-processing技能实操:批量抠图、图片尺寸调整,适配办公需求
开发语言·前端·人工智能·python·深度学习·机器学习·openclaw
Agent产品评测局37 分钟前
企业生产报工自动化落地,数据采集全流程实现方案 —— 2026制造业数字化转型深度选型指南
运维·人工智能·ai·chatgpt·自动化
帮我吧智能服务平台39 分钟前
工业4.0下,装备制造全生命周期服务数字化落地方案(附实操案例)
网络·人工智能·制造