layernorm笔记

文章目录

layer norm的解释

二维

红色为batchnorm,蓝色为layer norm

batchnorm对每一个特征算均值和方差

layer norm对每一个批次算均值和方差

三维

红色为batchnorm,蓝色为layer norm

batchnorm对每个句子的第K个词做归一化

layer norm对每个句子的每个词做归一化

batchnorm和layernorm主要的区别

在算均值和方差的上面

batchnorm

理论算矩阵中阴影面积中的方差和均值,实际算整个矩阵中的方差和均值阴影部分的长度为小批量中的句子长度,用0补全

  • 均值和方差波动比较大

  • 预测时,如果预测样本的长度超过训练样本的最大长度,使用训练的均值和方差效果可能不是那么好
    layernorm

    矩阵中阴影部分的面积算方差和均值

    每个样本(每个句子里面自己所有的词)自己算均值和方差,不需要存一个全局的均值和方差,因为是对每个样本做的norm。

为什么要在序列转录模型中使用layer norm?

在时序的样本中,每个样本的长度可能发生变化

源自李沐论文讲解

相关推荐
杨小扩13 小时前
OpenAI Codex CLI 命令行参考笔记
人工智能·笔记
做cv的小昊14 小时前
大语言模型系统:【CMU 11-868】课程学习笔记06——Transformer学习(Transformer)
笔记·学习·语言模型
Vae_Mars16 小时前
华睿MVP:C#脚本的应用一
笔记·c#
_muffinman16 小时前
Java学习笔记-第2章 运算和语句
java·笔记·学习
六元七角八分16 小时前
学习笔记一《JavaScript基础语法》
javascript·笔记·学习
风酥糖17 小时前
在Termux中运行Siyuan笔记服务
android·linux·服务器·笔记
跃龙客17 小时前
C++写文件笔记
c++·笔记
宵时待雨17 小时前
C++笔记归纳11:多态
开发语言·c++·笔记
李昊哲小课18 小时前
NumPy 完整学习笔记
笔记·python·学习·数据分析·numpy
Jasminee18 小时前
SSH 服务攻防实战
笔记·安全