LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
麻雀无能为力几秒前
python自学笔记14 NumPy 线性代数
笔记·python·numpy
竹杖芒鞋轻胜马,夏天喜欢吃西瓜2 小时前
二叉树学习笔记
数据结构·笔记·学习
_Kayo_3 小时前
React 学习笔记2 props、refs
笔记·学习·react.js
阿阳微客6 小时前
CSGO搬砖项目详解:从装备选择到市场策略
笔记·学习·游戏
RanceGru6 小时前
神经网络学习笔记11——高效卷积神经网络架构SqueezeNet
笔记·神经网络·学习
慕伏白6 小时前
【慕伏白】CTFHub 技能树学习笔记 -- Web 之密码口令
笔记·学习
麻雀无能为力7 小时前
python 自学笔记13 numpy数组规整
笔记·python·numpy
17岁的勇气7 小时前
Unity Shader unity文档学习笔记(二十一):几种草体的实现方式(透明度剔除,GPU Instaning, 曲面细分+几何着色器实现)
笔记·学习·unity
天下琴川8 小时前
Dify智能体平台二次开发笔记(10):企业微信5.0 智能机器人对接 Dify 智能体
笔记·机器人·企业微信
njsgcs8 小时前
部署网页在服务器(公网)上笔记 infinityfree 写一个找工作单html文件的网站
笔记