LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
深蓝海拓28 分钟前
基于QtPy (PySide6) 的PLC-HMI工程项目(二)系统规划
笔记·python·qt·学习·plc
鱼鳞_1 小时前
Java学习笔记_Day20(二叉树)
java·笔记·学习
卖报的大地主2 小时前
Learn Claude Code Agent 开发 | 8、后台异步执行:慢操作不阻塞主工作流
人工智能·笔记
2501_926978333 小时前
萨特《存在与虚无》听书有感---(理论5.0解读2)
经验分享·笔记·ai写作
chushiyunen4 小时前
llama-index rag框架笔记
chrome·笔记·llama
MimCyan4 小时前
prompt越狱手册(个人笔记记录-2026.03.31)
笔记·prompt
Heartache boy4 小时前
野火STM32_HAL库版课程笔记-TIM通道捕获应用之超声波测距
笔记·stm32·单片机
Yu_Lijing5 小时前
基于C++的《Head First设计模式》笔记——访问者模式
c++·笔记·设计模式
浅念-5 小时前
Linux 进程与操作系统
linux·运维·服务器·网络·数据结构·笔记·网络协议
刘若里5 小时前
【论文阅读】自适应稀疏自注意力——可直接用!
论文阅读·人工智能·笔记·深度学习·计算机视觉