【神经网络与深度学习】批标准化(Batch Normalization)和层标准化(Layer Normalization)

引言

在深度学习中,标准化技术(Normalization)是提高神经网络训练效率和性能的重要工具。其中,批标准化(Batch Normalization, BN)和层标准化(Layer Normalization, LN)是两种常用的标准化方法。它们在归一化的维度、适用场景和计算复杂度方面各有特色。本篇内容将对这两种标准化方法进行详细对比,并进一步介绍 PyTorch 中的 nn.Sequential 模块的使用方法,以便更高效地构建神经网络。

批标准化层(Batch Normalization)和层标准化层(Layer Normalization)的区别

3.1 归一化维度

1. 批标准化(BN)

  • 操作对象:在一个批次的数据上进行归一化。

  • 归一化方法:对输入数据的每个特征维度,计算该批次内所有样本在该维度上的均值和方差,进行归一化。

  • 示例:对于形状为 (batch_size, num_features) 的输入数据,BN 对每个特征维度(num_features)上的 batch_size 个样本进行归一化。

  • 核心思想:调整每一层的输入数据分布,使其均值为 0,标准差为 1。

处理流程如下:



2. 层标准化(LN)

  • 操作对象:在单个样本的所有特征维度上进行归一化。

  • 归一化方法:对每个样本的所有特征维度计算均值和方差,进行归一化。

  • 示例:对于形状为 (batch_size, num_features) 的输入数据,LN 对每个样本的 num_features 个特征进行归一化。

  • 核心思想:专注于单个样本的特征归一化,与批次无关。

处理流程如下:


  • 缩放与偏移
    无论是 BN 还是 LN,归一化之后会添加缩放和偏移操作,目的在于为模型提供更多调整灵活性,以适应不同任务和数据集。

3.2 应用场景

1. 批标准化(BN)

  • 适用场景:卷积神经网络(CNN)和循环神经网络(RNN)。

  • 优点:加速模型收敛,提高泛化能力。

  • 局限性:对于变长序列(如 RNN 的变长句子),可能因样本长度不同而影响归一化效果。

2. 层标准化(LN)

  • 适用场景:处理变长序列数据(如自然语言处理中的 RNN 模型)。

  • 优点:不受序列长度影响,可在生成对抗网络(GAN)及 Transformer 架构中广泛应用。

3.3 计算复杂度

1. 批标准化(BN)

  • 依赖批次大小:每个批次需要计算均值和方差,批次较小时可能导致不稳定。

2. 层标准化(LN)

  • 依赖特征维度:计算复杂度较低,不受批次大小影响,计算结果更稳定。

nn.Sequential(*layers)的使用方法

  • nn.Sequential 是 PyTorch 的顺序容器,用于顺序组合多个神经网络层。通过它,可以简洁地构建模型。
python 复制代码
import torch.nn as nn

# 定义网络层
layers = []
layers.append(nn.Linear(input_dim, h_dim))
layers.append(nn.BatchNorm1d(h_dim))
layers.append(nn.SELU())
layers.append(nn.Linear(h_dim, output_dim))

# 创建顺序容器
model = nn.Sequential(*layers)

# 前向传播
output = model(input_data)
相关推荐
Narrastory18 小时前
明日香 - Pytorch 快速入门保姆级教程(一)
人工智能·pytorch·深度学习
Narrastory18 小时前
明日香 - Pytorch 快速入门保姆级教程(二)
人工智能·pytorch·深度学习
程序员打怪兽2 天前
详解Visual Transformer (ViT)网络模型
深度学习
CoovallyAIHub4 天前
仿生学突破:SILD模型如何让无人机在电力线迷宫中发现“隐形威胁”
深度学习·算法·计算机视觉
CoovallyAIHub4 天前
从春晚机器人到零样本革命:YOLO26-Pose姿态估计实战指南
深度学习·算法·计算机视觉
CoovallyAIHub4 天前
Le-DETR:省80%预训练数据,这个实时检测Transformer刷新SOTA|Georgia Tech & 北交大
深度学习·算法·计算机视觉
CoovallyAIHub4 天前
强化学习凭什么比监督学习更聪明?RL的“聪明”并非来自算法,而是因为它学会了“挑食”
深度学习·算法·计算机视觉
CoovallyAIHub4 天前
YOLO-IOD深度解析:打破实时增量目标检测的三重知识冲突
深度学习·算法·计算机视觉
用户1474853079745 天前
AI-动手深度学习环境搭建-d2l
深度学习
OpenBayes贝式计算5 天前
解决视频模型痛点,TurboDiffusion 高效视频扩散生成系统;Google Streetview 涵盖多个国家的街景图像数据集
人工智能·深度学习·机器学习