LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
细心的莽夫2 小时前
Docker学习笔记
运维·笔记·后端·学习·docker·容器
再玩一会儿看代码3 小时前
pip 与 conda 的全面比较:Python 包管理的深度解析
经验分享·笔记·python·conda·课程设计·pip
Always_away3 小时前
数据库系统概论|第三章:关系数据库标准语言SQL—课程笔记3
数据库·笔记·sql·学习
MrsBaek4 小时前
前端笔记-JavaScript部分(上)
前端·javascript·笔记
小脑斧爱吃鱼鱼4 小时前
鸿蒙项目笔记(2)
笔记·学习·华为·harmonyos
0基础学习者6 小时前
按键消抖(用状态机实现)
前端·笔记·fpga开发·verilog·fpga
东方芷兰8 小时前
JavaWeb 课堂笔记 —— 08 请求响应
xml·java·笔记·spring·tomcat·html·idea
Jwoka8 小时前
正则表达式学习笔记
笔记·python·正则表达式·re
NULL指向我9 小时前
TMS320F28P550SJ9学习笔记14:EPWM_死区dead_baund
笔记·学习