LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
独孤九剑打醒他4 分钟前
#原创声明 #拒绝白嫖 #技术立场 #创作者保护
笔记
avocado_green11 分钟前
【考驾照】科目一备考笔记(个人手工整理,非AI生成)
笔记
雾岛听蓝1 小时前
Qt操作指南:状态栏、浮动窗口与对话框使用
开发语言·经验分享·笔记·qt
APIshop1 小时前
小红书笔记视频详情接口深度解析:smallredbook.item_get_video_pro
数据库·笔记·音视频
y = xⁿ1 小时前
MySQL学习笔记:乐观锁VS悲观锁/八股总结
笔记·学习·mysql
d111111111d1 小时前
STM32-UART抽象层封装
笔记·stm32·单片机·嵌入式硬件·学习
chushiyunen1 小时前
notion(模块化数字工作台)笔记
笔记·notion
三品吉他手会点灯2 小时前
C语言学习笔记 - 12.C语言简介 - 一元二次方程详解
c语言·笔记·学习
Cathy Bryant4 小时前
微分几何:度规(度量)metric
笔记·线性代数·矩阵·高等数学·物理
fengxin_rou5 小时前
JVM 核心笔记:对象创建、生命周期与类加载器详解
java·jvm·笔记