Pytorch分布式训练

现在深度学习模型占用显存大,数据量也大,单张显卡上训练已经满足不了要求了,只有多GPU并行训练才能加快训练速度;并行训练又分为模型并行和数据并行两种。模型并行比较少用到,这里主要介绍数据并行,pytorch中数据并行有两种DataParallel和DistributedDataParallel,前者是pytorch训练早期采用的,由于其单线程和显存利用率低等缺点,现在大多使用后者。


文章目录


1、并行训练

并行训练分两种,模型并行和数据并行。

1)模型并行。模型并行通常是指要训练的模型非常大,大到一块卡根本放不下,因而需要把模型进行拆分放到不同的卡上。例如早期的AlexNet就是拆分模型利用两块GPU训练的。

2)数据并行。数据并行通常用于训练数据非常庞大的时候,比如有几百万张图像用于训练模型。此时,如果只用一张卡来进行训练,那么训练时间就会非常的长。或者模型比较大,由于单卡显存的限制,训练时的batch size不能设置过大。这时就需要多个GPU训练来提升batchsize大小。

相关推荐
Blossom.1182 分钟前
使用Python和OpenCV实现图像识别与目标检测
人工智能·python·神经网络·opencv·安全·目标检测·机器学习
AI.NET 极客圈26 分钟前
.NET 原生驾驭 AI 新基建实战系列(四):Qdrant ── 实时高效的向量搜索利器
数据库·人工智能·.net
用户214118326360234 分钟前
dify案例分享--告别手工录入!Dify 工作流批量识别电子发票,5分钟生成Excel表格
前端·人工智能
SweetRetry34 分钟前
前端依赖管理实战:从臃肿到精简的优化之路
前端·人工智能
Icoolkj43 分钟前
Komiko 视频到视频功能炸裂上线!
人工智能·音视频
LLM大模型44 分钟前
LangChain篇-提示词工程应用实践
人工智能·程序员·llm
TiAmo zhang1 小时前
人机融合智能 | “人智交互”跨学科新领域
人工智能
算家计算1 小时前
6GB显存玩转SD微调!LoRA-scripts本地部署教程,一键炼出专属AI画师
人工智能·开源
YYXZZ。。1 小时前
PyTorch——非线性激活(5)
人工智能·pytorch·python
孤独野指针*P1 小时前
释放模型潜力:浅谈目标检测微调技术(Fine-tuning)
人工智能·深度学习·yolo·计算机视觉·目标跟踪