LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
ajole13 分钟前
Linux学习笔记——基本指令
linux·服务器·笔记·学习·centos·bash
UQI-LIUWJ17 分钟前
Langchain笔记:模型
笔记·langchain
傻小胖18 分钟前
19.ETH-挖矿算法-北大肖臻老师客堂笔记
笔记·算法·区块链
紫罗兰盛开19 分钟前
招商银行股票分析
经验分享·笔记
方安乐24 分钟前
react笔记之useCallback/useEffect闭包陷阱
前端·笔记·react.js
蒸蒸yyyyzwd8 小时前
cpp对象模型学习笔记1.1-2.8
java·笔记·学习
dalong109 小时前
A14:自定义动画演示
笔记·aardio
今儿敲了吗9 小时前
鸿蒙开发第一章学习笔记
笔记·学习·鸿蒙
闪闪发亮的小星星10 小时前
刚体运动学复习笔记
笔记
林深现海11 小时前
【刘二大人】PyTorch深度学习实践笔记 —— 第一集:深度学习全景概述(超详细版)
pytorch·笔记·深度学习