Pytorch分布式训练

现在深度学习模型占用显存大,数据量也大,单张显卡上训练已经满足不了要求了,只有多GPU并行训练才能加快训练速度;并行训练又分为模型并行和数据并行两种。模型并行比较少用到,这里主要介绍数据并行,pytorch中数据并行有两种DataParallel和DistributedDataParallel,前者是pytorch训练早期采用的,由于其单线程和显存利用率低等缺点,现在大多使用后者。


文章目录


1、并行训练

并行训练分两种,模型并行和数据并行。

1)模型并行。模型并行通常是指要训练的模型非常大,大到一块卡根本放不下,因而需要把模型进行拆分放到不同的卡上。例如早期的AlexNet就是拆分模型利用两块GPU训练的。

2)数据并行。数据并行通常用于训练数据非常庞大的时候,比如有几百万张图像用于训练模型。此时,如果只用一张卡来进行训练,那么训练时间就会非常的长。或者模型比较大,由于单卡显存的限制,训练时的batch size不能设置过大。这时就需要多个GPU训练来提升batchsize大小。

相关推荐
新智元21 分钟前
刚刚,OpenAI发布首个AI浏览器ChatGPT Atlas!谷歌最怕的来了
人工智能
Baihai_IDP25 分钟前
LLM 应用评估综合指南(多轮对话系统、RAG、AI Agent)
人工智能·面试·llm
九章云极AladdinEdu43 分钟前
大模型训练显存优化全方案:ZeRO、Offload与重计算技术对比
人工智能·大模型训练·zero·显存优化·offload·激活重计算·混合精度
FIT2CLOUD飞致云43 分钟前
喜报丨MaxKB开源智能体平台入选2025年浙江省“数智优品”名单
人工智能·开源
jerryinwuhan1 小时前
pybullet入门到入门_1
开发语言·人工智能·python
我狸才不是赔钱货1 小时前
AI大模型“战国策”:主流LLM平台简单介绍
c++·人工智能·程序人生·github·llama
ZHE|张恒1 小时前
从 LLM 到 Agentic AI:构建下一代智能系统的全栈路径
人工智能
Moniane1 小时前
UV技术:高效杀菌与精准固化的未来之光
人工智能
樱花的浪漫1 小时前
Cuda reduce算子实现与优化
数据库·人工智能·深度学习·神经网络·机器学习·自然语言处理
繁依Fanyi1 小时前
Cloud Studio 免环境搭建创建机器学习环境并运行 Pytorch 案例
人工智能·pytorch·机器学习