LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
ZhiqianXia1 小时前
《The Design of Design》阅读笔记
前端·笔记·microsoft
祁白_2 小时前
nmap工具笔记整理
笔记·web安全·测试
南境十里·墨染春水2 小时前
C++笔记 STL——set
开发语言·c++·笔记
d111111111d2 小时前
直流电机位置式 PID 控制 和 舵机的区别
笔记·stm32·单片机·嵌入式硬件·学习
LZYmarks3 小时前
小白买车笔记
笔记
码途漫谈3 小时前
Easy-Vibe开发篇阅读笔记(二)——前端开发之Figma与MasterGo入门
人工智能·笔记·ai·开源·ai编程·figma
LaLaLa_OvO3 小时前
jetbrains 的 datagrip 导出csv,中文乱码
笔记
大囚长3 小时前
权力的哲学洞察与反思
笔记
java_logo4 小时前
SiYuan 思源笔记 Docker 部署终极指南:Windows+Linux 双平台
windows·笔记·docker·思源笔记·思源笔记部署·docker部署思源笔记·思源笔记文档
d111111111d5 小时前
了解Modbus
网络·笔记·stm32·单片机·嵌入式硬件·学习