LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
蒸蒸yyyyzwd1 小时前
day3学习笔记
笔记·学习
小陈phd4 小时前
系统架构师学习笔记(三)——计算机体系结构之存储系统
笔记·学习·系统架构
feasibility.5 小时前
SSH Agent Forwarding 与 tmux 排障笔记
linux·运维·服务器·经验分享·笔记·ssh
dulu~dulu7 小时前
算法---寻找和为K的子数组
笔记·python·算法·leetcode
W起名有点难7 小时前
【Salesforce学习】创建Object笔记
笔记
heartzZ1yy7 小时前
PolarCTF靶场 Crypto 简单 (上)
经验分享·笔记
xw-busy-code7 小时前
Prettier 学习笔记
javascript·笔记·学习·prettier
半壶清水7 小时前
[软考网规考点笔记]-局域网之HDLC 协议
网络·笔记·网络协议·考试
酸奶乳酪7 小时前
IIC学习笔记
笔记·单片机·学习
小陈phd8 小时前
系统架构师学习笔记(二)——计算机体系结构之指令系统
笔记·学习·系统架构