LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
霸王蟹2 分钟前
Uni-app 跨端开发框架Unibest快速体验
前端·笔记·微信·uni-app·unibest
mango_mangojuice43 分钟前
C++ 学习笔记(string类)
开发语言·c++·笔记·学习
hetao173383743 分钟前
2026-01-27~28 hetao1733837 的刷题记录
c++·笔记·算法
蓝田生玉1231 小时前
Deepstack论文阅读笔记
论文阅读·笔记
淬炼之火1 小时前
基于Docker Desktop 和 Ubuntu 在 Windows上部署轻量化大模型(Qwen-LLM)
笔记·ubuntu·docker·语言模型·容器
AI视觉网奇2 小时前
Delaying 20 processes from spawning due to memory pressure
笔记·学习·ue5
myloveasuka2 小时前
分离指令缓存(I-Cache)和数据缓存(D-Cache)的原因
笔记·缓存·计算机组成原理·硬件
Hammer_Hans2 小时前
DFT笔记25
笔记
孞㐑¥2 小时前
算法—位运算
c++·经验分享·笔记·算法
芯思路2 小时前
STM32开发学习笔记之七【LCD显示图片】
笔记·stm32·学习