模型训练中梯度累积步数(gradient_accumulation_steps)的作用

模型训练中梯度累积步数(gradient_accumulation_steps)的作用

flyfish

在使用训练大模型时,TrainingArguments有一个参数梯度累积步数(gradient_accumulation_steps)

py 复制代码
from transformers import TrainingArguments

梯度累积是一种在训练深度学习模型时用于处理内存限制问题的技术。在每次迭代中,模型的梯度是通过反向传播计算得到的,而梯度累积步数(gradient_accumulation_steps)指定了在执行实际的参数更新之前,要累积多少个小批次(mini - batch)的梯度。

以代码来说gradient_accumulation_steps的作用

py 复制代码
import torch
from torch import nn, optim

# 生成更合理的数据集,假设目标关系是y = 3 * x + 2 加上一些噪声
def generate_dataset(num_samples):
    inputs = torch.randn(num_samples, 10)
    # 根据线性关系生成标签,添加一些随机噪声模拟真实情况
    labels = 3 * inputs.sum(dim=1, keepdim=True) + 2 + torch.randn(num_samples, 1) * 0.5
    return list(zip(inputs, labels))

# 生成数据集,这里生成2000个样本(可根据实际情况调整数据量)
your_dataset = generate_dataset(2000)

# 模型、损失和优化器
model = nn.Linear(10, 1)
# 使用Xavier初始化方法来初始化模型参数,有助于缓解梯度消失和爆炸问题,提升训练效果
nn.init.xavier_uniform_(model.weight)
nn.init.zeros_(model.bias)
criterion = nn.MSELoss()
# 适当调整学习率,这里改为0.1,可根据实际情况进一步微调
optimizer = optim.Adam(model.parameters(), lr=0.1)

# 配置梯度累积步数
gradient_accumulation_steps = 4
global_step = 0

# 模拟训练循环
for epoch in range(20):  # 训练20个周期
    for step, (inputs, labels) in enumerate(torch.utils.data.DataLoader(your_dataset, batch_size=8)):
        
        # 前向传播
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        
        # 反向传播(累积梯度)
        loss.backward()
        
        # 执行梯度更新
        if (step + 1) % gradient_accumulation_steps == 0:
            optimizer.step()
            optimizer.zero_grad()
            global_step += 1
            print(f"更新了模型参数,当前全局步数: {global_step}, 当前损失: {loss.item()}")

解释:

  • batch_size=8:每个梯度计算时,模型会处理 8 张图像。
  • gradient_accumulation_steps=4:表示每次参数更新前累积 4 次梯度。

因此:

  • 每个 step: 处理 8 张图像。
  • 累积 4 个 step: 共处理 8 × 4 = 32 8 \times 4 = 32 8×4=32 张图像。

关键点:

  • 一个 step: 是指一次前向和后向传播(不包含参数更新)。
  • 一次参数更新: 在累积 4 个 step 后,进行一次模型参数更新。

等效有效批次:

有效批次大小 = batch_size × gradient_accumulation_steps

即: 8 × 4 = 32 8 \times 4 = 32 8×4=32。

这意味着,即使显存有限,模型仍然能以有效批次大小 32 的方式进行训练

相关推荐
橙子小哥的代码世界4 小时前
【大模型部署】mac m1本地部署 ChatGLM3-6B 超详细教程
深度学习·神经网络·macos·大模型·transformer·chatglm·踩坑记录
L_cl18 小时前
【NLP 78、手搓Transformer模型结构及实战】
人工智能·自然语言处理·transformer
我不是小upper1 天前
详细到用手撕transformer下半部分
算法·机器学习·transformer
zhojiew1 天前
图解gpt之Transformer架构与设计原理
gpt·深度学习·transformer
vlln1 天前
【论文解读】DETR: 用Transformer实现真正的End2End目标检测
人工智能·深度学习·目标检测·计算机视觉·transformer
聚客AI2 天前
企业知识库问答系统避坑指南:检索优化与生成一致性解决方案
人工智能·深度学习·机器学习·语言模型·自然语言处理·transformer·知识图谱
林林宋2 天前
DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation
人工智能·深度学习·transformer
pen-ai2 天前
【深度学习】11. Transformer解析: Self-Attention、ELMo、Bert、GPT
深度学习·bert·transformer
小彭律师2 天前
LSTM+Transformer混合模型架构文档
人工智能·lstm·transformer
写代码的小阿帆2 天前
Attention Is All You Need论文阅读笔记
论文阅读·深度学习·机器学习·transformer