layernorm笔记

文章目录

layer norm的解释

二维

红色为batchnorm,蓝色为layer norm

batchnorm对每一个特征算均值和方差

layer norm对每一个批次算均值和方差

三维

红色为batchnorm,蓝色为layer norm

batchnorm对每个句子的第K个词做归一化

layer norm对每个句子的每个词做归一化

batchnorm和layernorm主要的区别

在算均值和方差的上面

batchnorm

理论算矩阵中阴影面积中的方差和均值,实际算整个矩阵中的方差和均值阴影部分的长度为小批量中的句子长度,用0补全

  • 均值和方差波动比较大

  • 预测时,如果预测样本的长度超过训练样本的最大长度,使用训练的均值和方差效果可能不是那么好
    layernorm

    矩阵中阴影部分的面积算方差和均值

    每个样本(每个句子里面自己所有的词)自己算均值和方差,不需要存一个全局的均值和方差,因为是对每个样本做的norm。

为什么要在序列转录模型中使用layer norm?

在时序的样本中,每个样本的长度可能发生变化

源自李沐论文讲解

相关推荐
_李小白25 分钟前
【OPENGL ES 3.0 学习笔记】第一天:认识渲染管道
笔记·学习
bnsarocket1 小时前
Verilog和FPGA的自学笔记4——多路选择器(always语句)
笔记·fpga开发·编程·verilog·自学·硬件编程
你也渴望鸡哥的力量么4 小时前
爬虫学习笔记
笔记·爬虫·学习
日更嵌入式的打工仔4 小时前
InitLWIP() 初始化
笔记·嵌入式硬件·学习
峰顶听歌的鲸鱼4 小时前
38.Shell脚本编程2
linux·运维·服务器·笔记·学习方法
聪明的笨猪猪6 小时前
Java Spring “MVC ”面试清单(含超通俗生活案例与深度理解)
java·经验分享·笔记·面试
LXS_3576 小时前
Day 09(下) B2a实例解说----exampleB2a.cc+ActionInitialization+PrimaryGeneratorAction
笔记·学习方法·改行学it·geant4·b2a
繁星星繁7 小时前
C++11学习笔记
c++·笔记·学习
金水谣8 小时前
10.8考研笔记
笔记
蒙奇D索大18 小时前
【数据结构】考研数据结构核心考点:二叉排序树(BST)全方位详解与代码实现
数据结构·笔记·学习·考研·算法·改行学it