layernorm笔记

文章目录

layer norm的解释

二维

红色为batchnorm,蓝色为layer norm

batchnorm对每一个特征算均值和方差

layer norm对每一个批次算均值和方差

三维

红色为batchnorm,蓝色为layer norm

batchnorm对每个句子的第K个词做归一化

layer norm对每个句子的每个词做归一化

batchnorm和layernorm主要的区别

在算均值和方差的上面

batchnorm

理论算矩阵中阴影面积中的方差和均值,实际算整个矩阵中的方差和均值阴影部分的长度为小批量中的句子长度,用0补全

  • 均值和方差波动比较大

  • 预测时,如果预测样本的长度超过训练样本的最大长度,使用训练的均值和方差效果可能不是那么好
    layernorm

    矩阵中阴影部分的面积算方差和均值

    每个样本(每个句子里面自己所有的词)自己算均值和方差,不需要存一个全局的均值和方差,因为是对每个样本做的norm。

为什么要在序列转录模型中使用layer norm?

在时序的样本中,每个样本的长度可能发生变化

源自李沐论文讲解

相关推荐
杨先生哦4 分钟前
【2026热端攻防系列 3/12】反射型&存储型XSS全解:AI批量免杀、WAF绕过与企业级防御
前端·人工智能·笔记·web安全·xss
问心无愧05139 分钟前
ctf show web入门123
android·前端·笔记
لا معنى له17 分钟前
SF2Net: Sequence Feature Fusion Network for Palmprint Verification
人工智能·笔记·学习·机器学习
吃着火锅x唱着歌23 分钟前
深度探索C++对象模型 学习笔记 第六章 执行期语意学(1)
c++·笔记·学习
智者知已应修善业43 分钟前
【51单片机串口通信甲机四个按键模拟四位二进制值发送乙机以十进制显示2位数码管】2024-6-14
c++·经验分享·笔记·算法·51单片机
Flittly1 小时前
【AgentScope Java新手村系列】(8)多Agent协作
java·spring boot·笔记·spring·ai
Cloud_Shy6182 小时前
解读《Effective Python 3rd Edition》:从练气到老魔(第七章 Item 51)
开发语言·人工智能·笔记·python·学习方法
星恒随风2 小时前
C++ string 入门(一)
开发语言·c++·笔记·学习
hnult2 小时前
2026在线笔试平台选型指南:考试云九重防作弊与六大AI能力解析
人工智能·笔记·microsoft·课程设计
cuso4win2 小时前
Agent 项目里的 Eval 到底是什么?怎么分类?不同项目应该怎么评测?
笔记·python·agent·eval