LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
雾岛听蓝1 小时前
进程信号机制深度解析
linux·开发语言·经验分享·笔记
Z.风止15 小时前
Large Model-learning(3)
人工智能·笔记·后端·深度学习
东京老树根16 小时前
SAP学习笔记 - BTP SAP Build02 - Deploy,开始URL,Approve,Reject,履历确认,Log,Context
笔记·学习
zjeweler16 小时前
“网安+护网”终极300多问题面试笔记-全
笔记·网络安全·面试·职场和发展
仲芒16 小时前
[24年单独笔记] MySQL 常用的 DDL 命令
笔记·mysql·oracle
仲芒18 小时前
[24年单独笔记] MySQL 常用的 DML 命令
数据库·笔记·mysql
lwewan18 小时前
CPU 调度
笔记·考研
John.Lewis18 小时前
C++进阶(6)C++11(2)
开发语言·c++·笔记
CheerWWW19 小时前
C++学习笔记——栈内存与堆内存、宏、auto、std::array
c++·笔记·学习
-许平安-20 小时前
MCP项目笔记十(客户端 MCPClient)
c++·笔记·ai·raii·mcp·pluginapi·plugin system