LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
_李小白13 小时前
【OSG学习笔记】Day 22: StateSet 与 StateAttribute (渲染状态)
笔记·学习
zzh08114 小时前
Mysql数据库备份与恢复笔记
数据库·笔记·mysql
丝斯201116 小时前
AI学习笔记整理(79)——Python学习8
人工智能·笔记·学习
Z.风止16 小时前
Large Model-learning(2)
开发语言·笔记·python·leetcode
烛之武17 小时前
SpringCloud基础(上)
笔记·spring·spring cloud
南境十里·墨染春水17 小时前
C++ 笔记 深赋值 浅赋值(面向对象)
开发语言·jvm·c++·笔记
今儿敲了吗17 小时前
算法复盘——差分
数据结构·c++·笔记·学习·算法
_李小白17 小时前
【OSG学习笔记】Day 23: ClipNode(动态裁剪)
android·笔记·学习
丝斯201118 小时前
AI学习笔记整理(78)——Python学习7
人工智能·笔记·学习