Pytorch分布式训练

lishanlu1362024-12-25 8:32

现在深度学习模型占用显存大，数据量也大，单张显卡上训练已经满足不了要求了，只有多GPU并行训练才能加快训练速度；并行训练又分为模型并行和数据并行两种。模型并行比较少用到，这里主要介绍数据并行，pytorch中数据并行有两种DataParallel和DistributedDataParallel，前者是pytorch训练早期采用的，由于其单线程和显存利用率低等缺点，现在大多使用后者。

文章目录

1、并行训练

1、并行训练

并行训练分两种，模型并行和数据并行。

1）模型并行。模型并行通常是指要训练的模型非常大，大到一块卡根本放不下，因而需要把模型进行拆分放到不同的卡上。例如早期的AlexNet就是拆分模型利用两块GPU训练的。

2）数据并行。数据并行通常用于训练数据非常庞大的时候，比如有几百万张图像用于训练模型。此时，如果只用一张卡来进行训练，那么训练时间就会非常的长。或者模型比较大，由于单卡显存的限制，训练时的batch size不能设置过大。这时就需要多个GPU训练来提升batchsize大小。