LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
EmbedLinX2 小时前
C语言标准库stdlib.h
c语言·开发语言·笔记
蒸蒸yyyyzwd5 小时前
os八股学习笔记
笔记·学习
Yeh2020585 小时前
2月14日笔记
笔记
不想看见4045 小时前
House Robber 基本动态规划:一维--力扣101算法题解笔记
笔记·算法·leetcode·代理模式
日光倾5 小时前
【Vue.js 入门笔记】Git入门
笔记·git
菩提小狗5 小时前
第16天:信息打点-CDN绕过&业务部署&漏洞回链&接口探针&全网扫描&反向邮件_笔记|小迪安全2023-2024|web安全|渗透测试|
笔记·安全·web安全
山岚的运维笔记5 小时前
SQL Server笔记 -- 第69章:时态表
数据库·笔记·后端·sql·microsoft·sqlserver
就叫飞六吧6 小时前
“赛博大佛” Cloudflare(简称 CF)
笔记
Generalzy6 小时前
OpenClaw(原 Clawdbot/Moltbot)笔记
笔记
秦奈6 小时前
Unity学习复习随笔(12):网络开发基础
网络·笔记·学习·unity