技术栈
根号d
flying_1314
9 天前
神经网络
·
自注意力机制
·
参数初始化
·
梯度消失
·
梯度爆炸
·
标准差
·
根号d
面试常问系列(二)-神经网络参数初始化之自注意力机制
目录(一)、transformer中的自注意力机制为什么要除以根号d?1. 点积的方差问题2. 缩放的作用