LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
moringlightyn1 小时前
Linux---进程状态
linux·运维·服务器·笔记·操作系统·c·进程状态
go_bai2 小时前
Linux-线程2
linux·c++·经验分享·笔记·学习方法
闲聊MoonL3 小时前
【AMBA】Caches协议分析
笔记
('-')5 小时前
《从根上理解MySQL是怎样运行的》第四章学习笔记
笔记·学习·mysql
laplace01235 小时前
happy-llm笔记
笔记
IUGEI6 小时前
【后端开发笔记】JVM底层原理-垃圾回收篇
java·jvm·笔记·后端
摇滚侠7 小时前
Vue 项目实战《尚医通》,完成订单详情静态的搭建,笔记47
vue.js·笔记
('-')7 小时前
《从根上理解MySQL是怎样运行的》第五章学习笔记
笔记·学习·mysql
AA陈超8 小时前
以 Lyra 的架构为基础,创建一个名为 “Aura“ 的英雄并实现发射火球技能
c++·笔记·学习·ue5·lyra
('-')9 小时前
《从根上理解MySQL是怎样运行的》第二张学习笔记
笔记·学习·mysql