LLM笔记:LayerNorm VS RMSNorm

1 layernorm回顾

机器学习笔记:神经网络层的各种normalization_神经网络normalization-CSDN博客

2 RMSNorm(Root Mean Square Normalization)

LayerNorm 的一种变体,去除了均值计算,只考虑输入向量的平方和

优点

  • 计算更高效,因为省略了均值计算。
  • 更简单的归一化过程,对某些任务来说性能可能会更好。
  • 在大模型(如 GPT)中应用时表现出与 LayerNorm 相当甚至更好的效果。

缺点

  • 不处理均值漂移的问题,可能不适用于输入分布偏移较大的情况。
相关推荐
せいしゅん青春之我1 天前
【JavaEE初阶】网络原理——TCP报文结构、确认应答机制
网络·笔记·网络协议·tcp/ip·java-ee
charlie1145141911 天前
2D 计算机图形学基础速建——2
笔记·学习·线性代数·教程·计算机图形学
9ilk1 天前
【仿RabbitMQ的发布订阅式消息队列】--- 模块设计与划分
c++·笔记·分布式·后端·中间件·rabbitmq
摇滚侠1 天前
Spring Boot3零基础教程,JVM 编译原理,笔记87
jvm·spring boot·笔记
摇滚侠1 天前
Spring Boot3零基础教程,配置 GraalVM 环境,笔记88
java·spring boot·笔记
北诺南兮1 天前
大模型算法面试笔记——多头潜在注意力(MLA)
笔记·深度学习·算法
摇滚侠1 天前
Spring Boot3零基础教程,Kafka 的简介和使用,笔记76
spring boot·笔记·kafka
阿民不加班1 天前
【React】打卡笔记,入门学习02:react-router
笔记·学习·react.js
Starry_hello world1 天前
进程的替换
linux·笔记·有问必答
✎ ﹏梦醒͜ღ҉繁华落℘1 天前
freeRTOS学习笔记(十二)--信号量
笔记·学习