LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
狐571 小时前
2026-01-20-论文阅读-Can-1B-LLM-Surpass-405B-LLM?
论文阅读·笔记
Tiaoxiaobai2 小时前
如何实现亚细胞定位
人工智能·笔记
龙仔7252 小时前
n2n supernode Linux完整部署笔记,包含离线部署,
linux·运维·笔记·n2n·supernode
2501_944332163 小时前
深圳的售后服务系统解决方案有哪些提供商?
笔记
weixin_440730503 小时前
04python编程笔记-01基础知识+02三种结构
java·笔记·python
WYH2873 小时前
TTSY-学习笔记1
笔记·学习
被遗忘的旋律.3 小时前
Linux驱动开发笔记(二十四)——(下)IIO + MPU6050驱动
linux·驱动开发·笔记
鄭郑3 小时前
【Playwright 学习笔记 03】CSS选择器 定位方法
css·笔记·学习·playwright
JeffDingAI3 小时前
【Datawhale学习笔记】参数高效微调
android·笔记·学习
zhangrelay3 小时前
笔记本电脑待机功耗最低能降到多少瓦特?占用资源极少的系统有哪些呢?
笔记·学习