LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
冷凌爱10 分钟前
总结HTML中的文本标签
前端·笔记·html
保持学习ing35 分钟前
黑马Java面试笔记之 集合篇(算法复杂度+ArrayList+LinkedList)
java·笔记·算法·面试
Moonnnn.1 小时前
【单片机期末】串行口循环缓冲区发送
笔记·单片机·嵌入式硬件·学习
fen_fen2 小时前
学习笔记(26):线性代数-张量的降维求和,简单示例
笔记·学习·算法
FakeOccupational3 小时前
【p2p、分布式,区块链笔记 MESH】Bluetooth蓝牙通信 BLE Mesh协议的拓扑结构 & 定向转发机制
笔记·分布式·p2p
布伦鸽4 小时前
C# WPF 左右布局实现学习笔记(1)
笔记·学习·c#·wpf
love530love5 小时前
【笔记】旧版MSYS2 环境中 Rust 升级问题及解决过程
开发语言·人工智能·windows·笔记·python·rust·virtualenv
黑色的山岗在沉睡6 小时前
《视觉SLAM十四讲》自用笔记 第二讲:SLAM系统概述
笔记
HappyAcmen7 小时前
1.3 古典概型和几何概型
笔记·概率论·学习方法
普宁彭于晏8 小时前
CSS3相关知识点
前端·css·笔记·学习·css3