Pytorch分布式训练

现在深度学习模型占用显存大,数据量也大,单张显卡上训练已经满足不了要求了,只有多GPU并行训练才能加快训练速度;并行训练又分为模型并行和数据并行两种。模型并行比较少用到,这里主要介绍数据并行,pytorch中数据并行有两种DataParallel和DistributedDataParallel,前者是pytorch训练早期采用的,由于其单线程和显存利用率低等缺点,现在大多使用后者。


文章目录


1、并行训练

并行训练分两种,模型并行和数据并行。

1)模型并行。模型并行通常是指要训练的模型非常大,大到一块卡根本放不下,因而需要把模型进行拆分放到不同的卡上。例如早期的AlexNet就是拆分模型利用两块GPU训练的。

2)数据并行。数据并行通常用于训练数据非常庞大的时候,比如有几百万张图像用于训练模型。此时,如果只用一张卡来进行训练,那么训练时间就会非常的长。或者模型比较大,由于单卡显存的限制,训练时的batch size不能设置过大。这时就需要多个GPU训练来提升batchsize大小。

相关推荐
nvd11几秒前
FastMCP 开发指南: 5分钟入门
人工智能·python
wp123_118 分钟前
反激应用1:1贴片耦合电感选择:Coilcraft LPD3015-473MR vs 国产兼容 TONEVEE CDD3015-473M
人工智能·制造
不错就是对19 分钟前
【agent-lightning】 - 2_使用 Agent-lightning 训练第一个智能体
人工智能·深度学习·神经网络·自然语言处理·chatgpt·transformer·vllm
zhengfei61122 分钟前
AI渗透工具—Shannon完全自主的AI渗透测试工具
人工智能·深度学习·web安全·知识图谱·测试覆盖率·安全性测试·威胁分析
愚公搬代码24 分钟前
【愚公系列】《AI+直播营销》004-重视直播营销,打造直播竞争力(直播活动的基本原理)
人工智能
哥本哈士奇30 分钟前
简单的神经网络计算过程 - 正负判断
人工智能·深度学习·神经网络
自动驾驶小学生35 分钟前
Transformer和LLM前沿内容(3):LLM Post-Training
人工智能·深度学习·transformer
imbackneverdie40 分钟前
从零到一,如何用AI高效构建国自然申请书初稿?
人工智能·自然语言处理·aigc·科研·ai写作·学术·国家自然科学基金
Mike_detailing40 分钟前
Tensors (张量)
人工智能·pytorch·深度学习
三木今天学习了嘛41 分钟前
【Archived 2025】
人工智能