LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
潇冉沐晴1 小时前
div2 1052 个人补题笔记
笔记
蒙奇D索大2 小时前
【计算机网络】[特殊字符] 408高频考点 | 数据链路层组帧:从字符计数到违规编码,一文学透四大实现方法
网络·笔记·学习·计算机网络·考研
njsgcs3 小时前
tekla 使用笔记 切管 分割指定长度的管
笔记·tekla
蒙奇D索大4 小时前
【算法】 递归实战应用:从暴力迭代到快速幂的优化之路
笔记·考研·算法·改行学it
('-')4 小时前
《从根上理解MySQL》第一章学习笔记
笔记·学习·mysql
d111111111d5 小时前
STM32外设学习-串口发送数据-接收数据(笔记)
笔记·stm32·学习
昊喵喵博士6 小时前
直接用 JavaScript 给输入框赋值,Vue 页面input只是纯展示 并 没有触发 vue 的v-model 赋值
笔记
卡提西亚8 小时前
C++笔记-26-类模板
c++·笔记
yaocheng的ai分身8 小时前
停止过度思考 Obsidian:一份真正有效的初学者指南
笔记