LayerNorm和BatchNorm区别

NLP中常见的输入格式 [B=2, L=3, D=2] (B=批量大小,L=序列长度,D=特征维度)为例,可直观对比 LayerNorm 与 BatchNorm 的核心差异,二者的本质区别是归一化时"统计量的计算范围"完全不同

示例前提:输入数据

假设模型某层输入为 2 个样本(B=2),每个样本是长度为 3 的序列(L=3),每个序列元素有 2 维特征(D=2),输入数据如下(可理解为 2 个句子,每句 3 个词,每个词用 2 维向量表示):

lua 复制代码
# 输入 X: [B, L, D] = [2, 3, 2]
X = [
  [[1, 2],  # 样本1(句子1):词1(1,2)、词2(3,4)、词3(5,6)
   [3, 4],
   [5, 6]],
  [[7, 8],  # 样本2(句子2):词1(7,8)、词2(9,10)、词3(11,12)
   [9, 10],
   [11, 12]]
]

1. BatchNorm 的计算逻辑(同特征,跨样本)

BatchNorm 按"单个特征维度 "分组,计算所有样本在该特征上的全局统计量 (均值/标准差),再用该统计量归一化所有样本的这个特征。

步骤拆解(以特征维度 D=0 和 D=1 为例):

  1. 按特征维度分组
    • 特征 D=0:收集所有样本、所有序列位置的 D=0 特征值 → [1, 3, 5, 7, 9, 11]
    • 特征 D=1:收集所有样本、所有序列位置的 D=1 特征值 → [2, 4, 6, 8, 10, 12]
  2. 计算每组统计量
    • D=0 均值:(1+3+5+7+9+11)/6 = 6;标准差 ≈ 3.464
    • D=1 均值:(2+4+6+8+10+12)/6 = 7;标准差 ≈ 3.464
  3. 归一化 :所有样本的 D=0 特征用 D=0 的统计量归一化,D=1 同理。
    例如样本1词1的 D=0 归一化后:(1-6)/3.464 ≈ -1.443,D=1 归一化后:(2-7)/3.464 ≈ -1.443。

2. LayerNorm 的计算逻辑(同样本,跨特征)

LayerNorm 按"单个样本 "分组,计算该样本所有序列位置、所有特征维度的统计量 ,再用该统计量归一化这个样本的所有数据。

步骤拆解(以样本1和样本2为例):

  1. 按样本分组
    • 样本1:收集该样本所有数据 → [1, 2, 3, 4, 5, 6]
    • 样本2:收集该样本所有数据 → [7, 8, 9, 10, 11, 12]
  2. 计算每组统计量
    • 样本1均值:(1+2+3+4+5+6)/6 = 3.5;标准差 ≈ 1.708
    • 样本2均值:(7+8+9+10+11+12)/6 = 9.5;标准差 ≈ 1.708
  3. 归一化 :样本1的所有数据用样本1的统计量归一化,样本2同理。
    例如样本1词1的 D=0 归一化后:(1-3.5)/1.708 ≈ -1.464,D=1 归一化后:(2-3.5)/1.708 ≈ -0.878。

3. 核心区别总结(基于示例)

对比维度 BatchNorm(批量归一化) LayerNorm(层归一化)
统计量计算范围 所有样本 ,仅针对单个特征维度(如示例中跨2个样本算D=0的均值) 仅针对单个样本 ,跨所有特征维度(如示例中仅用样本1的数据算均值)
依赖批量大小 强依赖:若B=1,无法跨样本计算统计量,直接失效 不依赖:B=1时,仍可计算单个样本的所有特征统计量
适用场景 示例外的CV任务(如图像通道固定,B易做大) 示例中的NLP任务(如句子长度可变,B常较小)
相关推荐
会飞的老朱2 小时前
医药集团数智化转型,智能综合管理平台激活集团管理新效能
大数据·人工智能·oa协同办公
聆风吟º3 小时前
CANN runtime 实战指南:异构计算场景中运行时组件的部署、调优与扩展技巧
人工智能·神经网络·cann·异构计算
Codebee5 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
聆风吟º6 小时前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys6 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_56786 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子6 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
智驱力人工智能7 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算
qq_160144877 小时前
亲测!2026年零基础学AI的入门干货,新手照做就能上手
人工智能
Howie Zphile7 小时前
全面预算管理难以落地的核心真相:“完美模型幻觉”的认知误区
人工智能·全面预算