可插拔训练加速trick-Scaling PyTorch Model Training With Minimal Code Changes

依赖:

shell 复制代码
pip install lightning

插拔改动:

python 复制代码
from lightning.fabric import Fabric

#...

# 实例化
fabric = Fabric(accelerator='cuda')  
# 混精度用这个,加速明显
#fabric = Fabric(accelerator="cuda", precision="bf16-mixed")
fabric.launch()

#...

# 插拔接入
model, optimizer = fabric.setup(model, optimizer) 
train_dataloader = fabric.setup_dataloaders(train_dataloader)

#...

def train(num_epochs, model, optimizer, train_loader, val_loader, fabric):
    for epoch in range(num_epochs):
        train_acc = torchmetrics.Accuracy(task="multiclass", num_classes=10).to(fabric.device)

        model.train()
        for batch_idx, (features, targets) in enumerate(train_loader):
            model.train()  
            logits = model(features)
            loss = F.cross_entropy(logits, targets)
            optimizer.zero_grad()
            fabric.backward(loss)  # 插拔接入,原反向传播:loss.backward()
            optimizer.step()
            #...

参考文献

CVPR 2023 Talk:Scaling PyTorch Model Training With Minimal Code Changes

相关推荐
TG:@yunlaoda360 云老大5 分钟前
AI 电影制作迈入新阶段:谷歌云Veo 3.1模型发布,实现音频全覆盖与精细化创意剪辑
人工智能·云计算·音视频·googlecloud
木头左9 分钟前
机器学习用于股票预测的策略
人工智能·机器学习
陈天伟教授10 分钟前
人工智能技术-人工智能与科学-04 预测蛋白质结构
人工智能
智算菩萨16 分钟前
GPT-5.1:在 GPT-5 能力基线之上的体验升级、自适应推理与安全新范式
人工智能·机器学习·chatgpt
盼小辉丶42 分钟前
Transformer实战(26)——通过领域适应提升Transformer模型性能
深度学习·语言模型·bert·transformer
小oo呆1 小时前
【自然语言处理与大模型】主题建模 Topic Modeling
人工智能·自然语言处理
KKKlucifer1 小时前
从被动合规到主动免疫:AI 破解数据智能安全的四大核心场景
人工智能·安全
权泽谦1 小时前
脑肿瘤分割与分类的人工智能研究报告
人工智能·分类·数据挖掘
余俊晖1 小时前
文档图像旋转对VLM OCR的影响及基于Phi-3.5-Vision+分类头的文档方向分类器、及数据构建思路
人工智能·分类·ocr
Cleaner1 小时前
我是如何高效学习大模型的
人工智能·程序员·llm