LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
杭州杭州杭州1 分钟前
李沐动手学深度学习笔记(4)---物体检测基础
人工智能·笔记·深度学习
傻小胖4 分钟前
7.BTC-挖矿难度-北大肖臻老师客堂笔记
笔记·区块链
日更嵌入式的打工仔41 分钟前
嵌入式系统设计师软考个人笔记<3>
笔记
求真求知的糖葫芦1 小时前
微波工程4.2节阻抗与导纳矩阵学习(自用)
笔记·学习·线性代数·矩阵·射频工程
junnhwan3 小时前
【计算机网络-CS168-textbook阅读笔记】传输层原理与TCP设计
笔记·计算机网络·tcp·cs168
wdfk_prog3 小时前
[Linux]学习笔记系列 -- [drivers][base]platform
linux·笔记·学习
cs.shunzhang5 小时前
[特殊字符]【实战笔记】解锁 oh-my-opencode 隐藏技巧:用 ulw 和 ralph-loop 压榨 AI 极限
笔记
power 雀儿7 小时前
大模型基础:概念理解与 C++Token 化实现笔记
笔记
saoys7 小时前
Opencv 学习笔记:轮廓筛选 + 拟合(边界框 / 最小矩形 / 包围圆)
笔记·opencv·学习
崎岖Qiu8 小时前
【深度剖析】:结合 Spring Bean 的生命周期理解 @PostConstruct 的原理
java·笔记·后端·spring·javaee