LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
优雅的潮叭20 分钟前
c++ 学习笔记之 shared_ptr
c++·笔记·学习
claider34 分钟前
Vim User Manual 阅读笔记 usr_08.txt Splitting windows 窗口分割
笔记·编辑器·vim
am心39 分钟前
学习笔记-用户下单
笔记·学习
要做朋鱼燕5 小时前
【AES加密专题】3.工具函数的编写(1)
笔记·密码学·嵌入式·aes
嵌入式知行合一5 小时前
时间管理方法论
笔记
儒雅的晴天6 小时前
git笔记
笔记·git
半夏知半秋6 小时前
kcp学习-通用的kcp lua绑定
服务器·开发语言·笔记·后端·学习
中屹指纹浏览器7 小时前
指纹浏览器底层沙箱隔离技术实现原理与架构优化
经验分享·笔记
小裕哥略帅8 小时前
PMP知识--五大过程组
笔记·学习
Aliex_git8 小时前
提示词工程学习笔记
人工智能·笔记·学习