1 layernorm回顾
机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)
LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点:
- 计算更高效,因为省略了均值计算。
- 更简单的归一化过程,对某些任务来说性能可能会更好。
- 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。
缺点:
- 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。