layernorm笔记

文章目录

layer norm的解释

二维

红色为batchnorm,蓝色为layer norm

batchnorm对每一个特征算均值和方差

layer norm对每一个批次算均值和方差

三维

红色为batchnorm,蓝色为layer norm

batchnorm对每个句子的第K个词做归一化

layer norm对每个句子的每个词做归一化

batchnorm和layernorm主要的区别

在算均值和方差的上面

batchnorm

理论算矩阵中阴影面积中的方差和均值,实际算整个矩阵中的方差和均值阴影部分的长度为小批量中的句子长度,用0补全

  • 均值和方差波动比较大

  • 预测时,如果预测样本的长度超过训练样本的最大长度,使用训练的均值和方差效果可能不是那么好
    layernorm

    矩阵中阴影部分的面积算方差和均值

    每个样本(每个句子里面自己所有的词)自己算均值和方差,不需要存一个全局的均值和方差,因为是对每个样本做的norm。

为什么要在序列转录模型中使用layer norm?

在时序的样本中,每个样本的长度可能发生变化

源自李沐论文讲解

相关推荐
凯尔萨厮15 分钟前
Java学习笔记三(封装)
java·笔记·学习
RaLi和夕1 小时前
单片机学习笔记.C51存储器类型含义及用法
笔记·单片机·学习
星梦清河1 小时前
宋红康 JVM 笔记 Day15|垃圾回收相关算法
jvm·笔记·算法
岑梓铭2 小时前
计算机网络第四章(4)——网络层《ARP协议》
网络·笔记·tcp/ip·计算机网络·考研·408
lingggggaaaa2 小时前
小迪安全v2023学习笔记(八十讲)—— 中间件安全&WPS分析&Weblogic&Jenkins&Jetty&CVE
笔记·学习·安全·web安全·网络安全·中间件·wps
QT 小鲜肉3 小时前
【QT随笔】结合应用案例一文完美概括QT中的队列(Queue)
c++·笔记·qt·学习方法·ai编程
optimistic_chen4 小时前
【Java EE进阶 --- SpringBoot】Spring DI详解
spring boot·笔记·后端·spring·java-ee·mvc·di
清木!5 小时前
数据仓库详解
笔记
大筒木老辈子10 小时前
Linux笔记---协议定制与序列化/反序列化
网络·笔记
草莓熊Lotso10 小时前
【C++】递归与迭代:两种编程范式的对比与实践
c语言·开发语言·c++·经验分享·笔记·其他