技术栈

缩放问题

思考实践
1 年前
自注意力机制·缩放问题
深度学习有意思的探讨系列——Self-Attention那么为什么要进行缩放呢? 为什么很大的值,不利于梯度的传播?为什么使用维度的根号来进行缩放?我自己做了一个视频,欢迎大家一起探讨:深度学习有意思的探讨系列——Self-Attention那么为什么要进行缩放呢? 为什么很大的值,不利于梯度的传播?为什么使用维度的根号来进行缩放?_哔哩哔哩_bilibili