LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
枷锁—sha1 小时前
【CTFshow-pwn系列】03_栈溢出【pwn 050】详解:动态链接下的 mprotect 与 ROP 链艺术
网络·笔记·安全·网络安全
Yeh2020582 小时前
2月20日笔记
笔记
myloveasuka2 小时前
定点运算---加减法运算
笔记·计算机组成原理
智者知已应修善业2 小时前
【pta反转加法构造回文数c语言1000位】2025-1-31
c语言·c++·经验分享·笔记·算法
山岚的运维笔记2 小时前
SQL Server笔记 -- 第77章:文件组
数据库·笔记·sql·microsoft·oracle·sqlserver
fchampion3 小时前
MYSQL自学笔记
数据库·笔记·mysql
其美杰布-富贵-李3 小时前
Claude Code 使用指南
笔记·vibecoding·claude code
killer Curry4 小时前
Polar CTF Web 简单(1)
笔记
随意起个昵称4 小时前
Floyd算法做题笔记
笔记·算法
@––––––4 小时前
论文阅读笔记:π 0 : A Vision-Language-Action Flow Model for General Robot Control
论文阅读·笔记