layernorm笔记

文章目录

layer norm的解释

二维

红色为batchnorm,蓝色为layer norm

batchnorm对每一个特征算均值和方差

layer norm对每一个批次算均值和方差

三维

红色为batchnorm,蓝色为layer norm

batchnorm对每个句子的第K个词做归一化

layer norm对每个句子的每个词做归一化

batchnorm和layernorm主要的区别

在算均值和方差的上面

batchnorm

理论算矩阵中阴影面积中的方差和均值,实际算整个矩阵中的方差和均值阴影部分的长度为小批量中的句子长度,用0补全

  • 均值和方差波动比较大

  • 预测时,如果预测样本的长度超过训练样本的最大长度,使用训练的均值和方差效果可能不是那么好
    layernorm

    矩阵中阴影部分的面积算方差和均值

    每个样本(每个句子里面自己所有的词)自己算均值和方差,不需要存一个全局的均值和方差,因为是对每个样本做的norm。

为什么要在序列转录模型中使用layer norm?

在时序的样本中,每个样本的长度可能发生变化

源自李沐论文讲解

相关推荐
QT 小鲜肉5 分钟前
【Linux命令大全】002.文件传输之uustat命令(实操篇)
linux·运维·服务器·笔记·github
玄同7659 分钟前
Python&LLM面试易错点: 函数返回值全览:从「原地操作」到「新对象返回」的系统解析
笔记·python·学习·语言模型·面试·llm·求职招聘
有一个好名字9 分钟前
云图库笔记
笔记
optimistic_chen1 小时前
【Redis 系列】常用数据结构---List类型
linux·数据结构·redis·笔记·list·xsheel
the4thone11 小时前
AI基础 笔记
人工智能·笔记
im_AMBER12 小时前
Leetcode 93 找出临界点之间的最小和最大距离
c++·笔记·学习·算法·leetcode
jimmyleeee12 小时前
人工智能基础知识笔记三十一:Langfuse的几种tracing的方法
人工智能·笔记
日更嵌入式的打工仔15 小时前
Ehercat代码解析中文摘录<3>
笔记·ethercat
玄同76515 小时前
Python 系统编程双雄:sys 与 os 模块深度实践指南
开发语言·数据库·人工智能·windows·笔记·python·microsoft
航Hang*16 小时前
第六章:网络系统建设与运维(高级)—— STP生成树协议
运维·服务器·网络·笔记·ensp