LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
Yueeyuee_39 分钟前
【C#学习Day15笔记】拆箱装箱、 Equals与== 、文件读取IO
笔记·学习·c#
এ旧栎1 小时前
Gitee
笔记·gitee·学习方法
kfepiza1 小时前
vim的`:q!` 与 `ZQ` 笔记250729
linux·笔记·编辑器·vim
Emotion亦楠2 小时前
Java 学习笔记:常用类、String 与日期时间处理
java·笔记·学习
养海绵宝宝的小蜗3 小时前
OSPF笔记整理
网络·笔记·智能路由器
没见过西瓜嘛4 小时前
数据仓库、数据湖与湖仓一体技术笔记
数据仓库·笔记
Mr Sorry4 小时前
TIME WEAVER: A Conditional Time Series Generation Model论文阅读笔记
论文阅读·笔记
寄思~4 小时前
学习笔记:封装和单继承
开发语言·笔记·python·学习
I'm a winner5 小时前
LaTeX 复杂图形绘制教程:从基础到进阶
经验分享·笔记·科技
受之以蒙5 小时前
Rust & WebAssembly:探索js-sys的奇妙世界
笔记·rust·webassembly