LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
wdfk_prog11 分钟前
EWMA、加权平均与一次低通滤波的对比与选型
linux·笔记·学习·游戏·ssh
Hello_Embed24 分钟前
STM32F030CCT6 开发环境搭建
笔记·stm32·单片机·嵌入式·freertos
蒸蒸yyyyzwd1 小时前
os 计网学习笔记
笔记·学习
Katecat996631 小时前
织物疵点检测与分类:Cascade-Mask-RCNN_RegNetX实验笔记
笔记·数据挖掘
日更嵌入式的打工仔1 小时前
LAN9253中文注释第四/五章
笔记
阿i索2 小时前
流对象输入输出(cin/cout)
c++·笔记·学习
李派森2 小时前
AI大模型之丙午马年运势模型的构建与求解
笔记·算法
dalong102 小时前
A25:捕获鼠标与按键事件
笔记·aardio
山岚的运维笔记3 小时前
SQL Server笔记 -- 第46章 窗口函数
数据库·笔记·sql·microsoft·sqlserver
Quintus五等升3 小时前
深度学习自用笔记
人工智能·笔记·深度学习·学习·机器学习·bert·numpy