Pytorch分布式训练

现在深度学习模型占用显存大,数据量也大,单张显卡上训练已经满足不了要求了,只有多GPU并行训练才能加快训练速度;并行训练又分为模型并行和数据并行两种。模型并行比较少用到,这里主要介绍数据并行,pytorch中数据并行有两种DataParallel和DistributedDataParallel,前者是pytorch训练早期采用的,由于其单线程和显存利用率低等缺点,现在大多使用后者。


文章目录


1、并行训练

并行训练分两种,模型并行和数据并行。

1)模型并行。模型并行通常是指要训练的模型非常大,大到一块卡根本放不下,因而需要把模型进行拆分放到不同的卡上。例如早期的AlexNet就是拆分模型利用两块GPU训练的。

2)数据并行。数据并行通常用于训练数据非常庞大的时候,比如有几百万张图像用于训练模型。此时,如果只用一张卡来进行训练,那么训练时间就会非常的长。或者模型比较大,由于单卡显存的限制,训练时的batch size不能设置过大。这时就需要多个GPU训练来提升batchsize大小。

相关推荐
拾零吖15 小时前
CS336 Lecture_03
人工智能·pytorch·深度学习
斯文~15 小时前
【AI论文速递】RAG-GUI:轻量VLM用SFT/RSF提升GUI性能
人工智能·ai·agent·rag·ai读论文·ai论文速递
Mrliu__15 小时前
Opencv(十五) : 图像梯度处理
人工智能·opencv·计算机视觉
高洁0115 小时前
具身智能-普通LLM智能体与具身智能:从语言理解到自主行动
人工智能·深度学习·算法·aigc·知识图谱
nihaoakekeke15 小时前
Fast Distributed Inference Serving for Large Language Models
人工智能·语言模型·自然语言处理
用户51914958484516 小时前
掌控Apple Silicon MacBook电池健康的神器
人工智能·aigc
静Yu16 小时前
基于CANN框架的算子开发:释放AI计算潜能的核心引擎
人工智能
嵌入式-老费16 小时前
自己动手写深度学习框架(最终的ncnn部署和测试)
人工智能·深度学习
阿十六16 小时前
OUC AI Lab 第七章:ViT & Swin Transformer
人工智能·深度学习·transformer
Mintopia16 小时前
🌳 Claude `code/worktree` 命令最佳实践指南
人工智能·claude·trae