LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
爱看大明王朝15662 小时前
磁件学习-磁性元器件的极限计算
笔记·学习
问心无愧05132 小时前
ctf show web入门 40
笔记
@蓝莓果粒茶4 小时前
【Unity笔记】保姆级AssetBundle详解(含代码+避坑指南)
笔记·游戏·unity
kobesdu5 小时前
【ROS2实战笔记-20】ROS2 bag 录播与时间模拟:从基础操作到高级调试技巧
笔记·机器人·ros·ros2
kobesdu6 小时前
【ROS2实战笔记-18】ROS2 通信的隐秘控制:DDS 配置参数如何决定系统性能
网络·人工智能·笔记·机器人·开源·ros·人形机器人
nnsix7 小时前
Unity 动画 Avatar 笔记
笔记·unity·游戏引擎
中草药z9 小时前
【测试基础】Python 核心语法,一篇搞定测试脚本开发基础
开发语言·笔记·python·学习·测试·语法
一口吃俩胖子9 小时前
【脉宽调制DCDC功率变换学习笔记020】频域性能准则
笔记·学习
被考核重击10 小时前
WASM学习笔记
笔记·学习·wasm
三品吉他手会点灯11 小时前
C语言学习笔记 - 27.C编程预备计算机专业知识 - 什么是字节
c语言·开发语言·笔记·学习