LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
网络工程小王7 小时前
【Transformer架构详解】(学习笔记)
笔记·学习
北风toto7 小时前
前端CSS样式详细笔记
前端·css·笔记
Heartache boy8 小时前
野火STM32_HAL库版课程笔记-手动建立工程模板与CubeMX后续用法(重要)
笔记·stm32·单片机·嵌入式硬件
Ztopcloud极拓云视角12 小时前
Gemini 3.1 Pro vs GPT-5.4 Pro:API成本1/3、性能差多少?选型实测笔记
人工智能·笔记·gpt·ai·语言模型
鱼鳞_16 小时前
Java学习笔记_Day22
java·笔记·学习
自小吃多16 小时前
TMC220X芯片 串口工具连接交互
笔记·嵌入式硬件
ZhiqianXia17 小时前
PyTorch学习笔记(6) : torch.autograd
pytorch·笔记·学习
网络工程小王17 小时前
【提示词工程和思维链的讲解】学习笔记
人工智能·笔记·学习
后藤十八里17 小时前
极验4消消乐验证码逆向笔记
笔记·爬虫·python
圣光SG18 小时前
项目分析与程序设计 学习笔记
笔记·学习·学习笔记·程序设计·项目分析