LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
AOwhisky12 分钟前
Kubernetes 学习笔记:集群管理、命名空间与 Pod 基础
linux·运维·笔记·学习·云原生·kubernetes
sakiko_2 小时前
UIKit学习笔记2-组件嵌套、滚动视图等
笔记·学习·objective-c·swift·uikit
Alice-YUE3 小时前
【JS高频八股】什么是闭包?
开发语言·javascript·笔记·学习
宵时待雨3 小时前
linux笔记归纳3:linux开发工具
linux·运维·笔记
摇滚侠4 小时前
Java 零基础全套视频教程,面向对象(高级),笔记 105-120
java·开发语言·笔记
tq10865 小时前
程序行为的效应构成:约束、规则与延迟固化的统一视角
笔记
Alice-YUE5 小时前
前端图片优化完全指南:从格式到加载的全面提速方案
前端·笔记·学习
Stella Blog5 小时前
狂神Java基础学习笔记Day05
java·笔记·学习
枷锁—sha5 小时前
【CTFshow-pwn系列】03_栈溢出【pwn 073】详解:静态编译下的自动化 ROP 链构建
网络·汇编·笔记·安全·网络安全·自动化
你数过天上的星星吗5 小时前
Python学习笔记二(函数、类与对象)
笔记·python·学习