LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
Promise4852 小时前
贝尔曼公式的迭代求解笔记
笔记·算法
锦锦锦aaa3 小时前
【layout理解篇之:mos电阻】
经验分享·笔记
zore_c3 小时前
【C语言】带你层层深入指针——指针详解2
c语言·开发语言·c++·经验分享·笔记
koo3643 小时前
pytorch深度学习笔记
pytorch·笔记·深度学习
眠晚晚4 小时前
API攻防&系统攻防笔记分享
笔记·web安全·网络安全
丝斯20116 小时前
AI学习笔记整理(22)—— AI核心技术(深度学习6)
人工智能·笔记·学习
koo3646 小时前
pytorch深度学习笔记1
pytorch·笔记·深度学习
jimmyleeee6 小时前
人工智能基础知识笔记二十一:Function Calling
人工智能·笔记
丝斯20116 小时前
AI学习笔记整理(21)—— AI核心技术(深度学习5)
人工智能·笔记·学习
风123456789~7 小时前
【健康管理】第5章 流行病学、医学统计学 1/2
笔记·考证·健康管理