技术栈

根号d

flying_1314
2 个月前
神经网络·自注意力机制·参数初始化·梯度消失·梯度爆炸·标准差·根号d
面试常问系列(二)-神经网络参数初始化之自注意力机制目录(一)、transformer中的自注意力机制为什么要除以根号d?1. 点积的方差问题2. 缩放的作用