LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
一只机电自动化菜鸟8 小时前
一建机电备考笔记(40) 建筑机电施工—排水管道施工(含考频+题型)
经验分享·笔记·学习·职场和发展·课程设计
你干嘛?哎哟9 小时前
4月工作笔记
笔记
tom02189 小时前
软考中级《嵌入式系统设计师》全套备考资料(真题 + 教材 + 笔记)
笔记·嵌入式·软考·自学·电子技术·电子资料·变成
问心无愧051310 小时前
ctf show web入门156
笔记
咸甜适中11 小时前
rust语言学习笔记Trait(八)Iterator(迭代器)
笔记·学习·rust
ZhiqianXia13 小时前
流畅的Python笔记
笔记·python
玄米乌龙茶12313 小时前
LLM成长笔记(四):大语言模型(LLM)基础认知
人工智能·笔记·语言模型
问心无愧051313 小时前
ctf show web入门157
笔记
奋斗的小乌龟13 小时前
langchain4j笔记-智能体系统01
java·笔记
qqVHU14 小时前
kafka笔记
笔记·分布式·kafka