面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2*根号d或者3*根号d

首先先罗列几个参考文章,大家之后可以去看看,加深理解:

好,步入正题,我们假定各位读者看过上面👆几篇文章,已经了解了,为什么自注意力机制中要使用 进行缩放,然后我们进一步进行探究,为什么不是

1、实例

1.点击没有缩放的时候,标准差的范围

  • 在【-】,有68.26%的值在这个区间,
  • 在【-2,2】,有95.45%的值在这个区间,
  • 在【-3,3】,有99.73%的值在这个区间,

参考:正态分布_百度百科

2.点击缩放的时候,标准差的范围从 到 1

  • x在【-1,1】,在【0.37,2.72】有68.26%的值在这个区间,
  • x在【-2,2】,有【0.14,7.39】95.45%的值在这个区间,
  • x在【-3,3】,有【0.05,20.09】99.73%的值在这个区间,

3.点击缩放2的时候,标准差的范围从 到 0.5

  • x在【-0.5,0.5】,在【0.61,1.65】有68.26%的值在这个区间,
  • x在【-1,1】,有【0.37,2.72】95.45%的值在这个区间,
  • x在【-1.5,1.5】,有【0.22,4.48】99.73%的值在这个区间,

2、实例总结(重点)

通过上述的不同缩放比例,大家应该可以比较清晰的发现,以一个标准差(68.26%)为例,随着缩放比例加大,变化范围减小,点击值被过度压缩,导致相对趋于均匀,从而无法很好的捕捉不同特征之间的差异,趋于大家都一样的感觉,区分度被缩小。大家感兴趣的可以实操看一下,softmax在不同缩放比例下的分布情况。

3、梯度特性

若除以2,Softmax输入的方差过小,导致梯度值普遍偏低,模型训练效率显著下降。例如,在机器翻译任务中,使用2​的BLEU分数可能下降2-3个点。

4、实验验证

  • 收敛速度对比

在WMT14英德翻译任务中,使用的Transformer模型在5万步迭代后达到收敛,而使用2的模型需8万步迭代,且最终BLEU分数低1.5个点。

  • 数值稳定性测试

通过模拟高维向量(d=1024)的点积计算,发现:

a. 缩放后,Softmax输入的最大值约为5,最小值约为-5,梯度值集中在[0.1,0.5];

b. 2缩放后,Softmax输入的最大值约为2.5,最小值约为-2.5,梯度值集中在[0.01,0.1],导致训练缓慢。

  • 泛化能力分析
    • 在GLUE基准测试中,缩放的模型在MNLI、QQP等任务上的准确率比2模型高1-2个百分点,表明其泛化能力更强。

参考:

https://zhuanlan.zhihu.com/p/32150751004

相关推荐
之歆3 小时前
Spring AI入门到实战到原理源码-MCP
java·人工智能·spring
知乎的哥廷根数学学派3 小时前
面向可信机械故障诊断的自适应置信度惩罚深度校准算法(Pytorch)
人工智能·pytorch·python·深度学习·算法·机器学习·矩阵
且去填词3 小时前
DeepSeek :基于 Schema 推理与自愈机制的智能 ETL
数据仓库·人工智能·python·语言模型·etl·schema·deepseek
待续3013 小时前
订阅了 Qoder 之后,我想通过这篇文章分享一些个人使用心得和感受。
人工智能
weixin_397578023 小时前
人工智能发展历史
人工智能
强盛小灵通专卖员3 小时前
基于深度学习的山体滑坡检测科研辅导:从论文实验到系统落地的完整思路
人工智能·深度学习·sci·小论文·山体滑坡
OidEncoder3 小时前
从 “粗放清扫” 到 “毫米级作业”,编码器重塑环卫机器人新能力
人工智能·自动化·智慧城市
Hcoco_me4 小时前
大模型面试题61:Flash Attention中online softmax(在线softmax)的实现方式
人工智能·深度学习·自然语言处理·transformer·vllm
哥布林学者4 小时前
吴恩达深度学习课程五:自然语言处理 第一周:循环神经网络 (七)双向 RNN 与深层 RNN
深度学习·ai
阿部多瑞 ABU4 小时前
`chenmo` —— 可编程元叙事引擎 V2.3+
linux·人工智能·python·ai写作