LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
白云偷星子8 分钟前
RHCSA笔记5
linux·运维·笔记
zzcufo1 小时前
Anki 使用完整教程
笔记·学习
Leventure_轩先生2 小时前
从 HiFi-GAN 到 NSF-HiFi-GAN:声码器学习笔记
笔记·学习·生成对抗网络
蒸蒸yyyyzwd2 小时前
DDIA阅读笔记ch6分区
笔记
跃龙客3 小时前
atomic笔记
笔记·算法
中屹指纹浏览器4 小时前
2026指纹浏览器环境隔离技术:进程、网络、存储三维深度隔离架构
经验分享·笔记
Smoothcloud润云5 小时前
Google DeepMind 学习系列笔记(3):Design And Train Neural Networks
数据库·人工智能·笔记·深度学习·学习·数据分析·googlecloud
【数据删除】3485 小时前
计算机复试学习笔记 Day26【补】
笔记·学习
clear sky .5 小时前
[bootloader]使用笔记
笔记
myloveasuka5 小时前
寻址方式笔记
汇编·笔记·计算机组成原理