LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
鹏北海-RemHusband6 小时前
Go 语言进阶笔记 — 面向 JS/TS 前端开发者
笔记·golang
nnsix8 小时前
Unity QFramework ResKit、UIKit 笔记
笔记
摇滚侠8 小时前
Java 零基础全套教程,反射机制,笔记 187-188
java·开发语言·笔记
【云轩】9 小时前
如何设计一台能模拟电机的电子负载:一个硬件工程师的实战笔记
笔记·嵌入式硬件
可信计算10 小时前
X司民用无人机运行安全与合规培训手册
笔记
李子琪。11 小时前
Web漏洞-CSRF-CSRF防御 实验步骤
经验分享·笔记
小碗羊肉11 小时前
【Agent笔记 | 第四篇】Agentic RAG
笔记
小雨xs12 小时前
Vulnhub靶场DC-9 渗透测试笔记
笔记
whyTeaFo12 小时前
MIT 6.1810: xv6 book Chapter3: Page tables 笔记
笔记
東雪木13 小时前
JVM 与 Java 内存模型 专属复习笔记
java·jvm·笔记·java面试