LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
Engineer邓祥浩1 小时前
JVM学习笔记(13) 第五部分 高效并发 第12章 Java内存模型与线程
jvm·笔记·学习
我命由我123451 小时前
程序员的心理学学习笔记 - 反刍思维
经验分享·笔记·学习·职场和发展·求职招聘·职场发展·学习方法
xuhaoyu_cpp_java4 小时前
事务学习(一)
数据库·经验分享·笔记·学习·mysql
代码地平线4 小时前
OpenCode零基础教程完整版
笔记
.Cnn5 小时前
Ajax与Vue 生命周期核心笔记
前端·javascript·vue.js·笔记·ajax
恒哥的爸爸5 小时前
GPT原理笔记
人工智能·笔记·gpt
神奇小梵5 小时前
http详解(笔记保存)
笔记
Pentane.6 小时前
【力扣hot100】【Leetcode 15】三数之和|暴力枚举 双指针 算法笔记及打卡(14/100)
数据结构·笔记·算法·leetcode
nnsix6 小时前
C# ProcessStartInfo对象笔记
开发语言·笔记·c#
star learning white6 小时前
xm工程物理2
笔记