LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
今儿敲了吗2 小时前
python基础学习笔记第六章——函数进阶
笔记·python·学习
左左右右左右摇晃3 小时前
JVM 笔记--分代工程以及分代的算法
jvm·笔记
-Springer-3 小时前
STM32 学习 —— 个人学习笔记9-3(FlyMcu 串口下载)
笔记·stm32·学习
中屹指纹浏览器5 小时前
2026指纹浏览器与代理IP协同安全体系构建——从特征匹配到行为风控的全链路防护
经验分享·笔记
لا معنى له5 小时前
什么是Active Inference(主动推理)? ——学习笔记
笔记·学习
zhouping@5 小时前
JAVA学习笔记day06
java·笔记·学习
Jack.Jia5 小时前
GPS原理笔记三——GPS卫星轨道理论和计算
笔记
庞轩px5 小时前
内存区域的演进与直接内存——JVM性能优化的权衡艺术
java·jvm·笔记·性能优化
liangshanbo12156 小时前
大模型 RAG 向量数据工程全链路架构笔记
笔记·架构
罗罗攀6 小时前
PyTorch学习笔记|张量的广播和科学运算
人工智能·pytorch·笔记·python·学习