LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
杰尼龟3682 小时前
Convince Develop 学习笔记
笔记·学习
不早睡不改名@2 小时前
Netty源码分析---Reactor线程模型深度解析(二)
java·网络·笔记·学习·netty
2501_938176883 小时前
股指期货的交易成本全解析
笔记
中屹指纹浏览器3 小时前
2026多账号运营的零信任架构:指纹浏览器与网络安全的深度融合实践
经验分享·笔记
热爱生活的猴子4 小时前
训练与推理时 Tokenizer Padding 用法笔记
人工智能·笔记·机器学习
Dr.F.Arthur4 小时前
我的算法笔记——哈希表篇
数据结构·笔记·散列表
ZhiqianXia5 小时前
Pytorch 学习笔记(4) : torch.backends
pytorch·笔记·学习
FakeOccupational5 小时前
【电路笔记 通信】8B_10B编码 高速数据传输的串行数据编码技术 论文流程对应实现(简化版本,仅编码数值)
笔记
忙什么果6 小时前
Mamba学习笔记2:Mamba模型
android·笔记·学习
悠哉悠哉愿意6 小时前
【物联网学习笔记】ADC
笔记·单片机·嵌入式硬件·物联网·学习