缩放问题 - 缩放问题技术,学习,经验文章

思考实践

2 年前

深度学习有意思的探讨系列——Self-Attention那么为什么要进行缩放呢？为什么很大的值，不利于梯度的传播？为什么使用维度的根号来进行缩放？我自己做了一个视频，欢迎大家一起探讨：深度学习有意思的探讨系列——Self-Attention那么为什么要进行缩放呢？为什么很大的值，不利于梯度的传播？为什么使用维度的根号来进行缩放？_哔哩哔哩_bilibili