Pytorch DataLoader 提高模型训练时的 Volatile Gpu-Util（GPU利用率）

文章目录

[1. 查看GPU显存占比和利用率](#1. 查看GPU显存占比和利用率)
[2. Pytorch 提高 GPU 利用率的方法](#2. Pytorch 提高 GPU 利用率的方法)

1. 查看GPU显存占比和利用率

python 复制代码

watch -n 0.2 nvidia-smi

0.2 代表每隔 0.2 秒刷新一次 GPU 使用情况

通过调整 batch_size 可以使 Memory-Usage（GPU显存占比）尽可能高；但Volatile Gpu-Util（GPU利用率）通常在 0 ~ 100% 之间动态变化，因为 GPU 用于网络中的矩阵运算，但数据集是从 CPU 中加载的。所以在网络训练时 Gpu-Util 高，数据加载时 Gpu-Util 低。

2. Pytorch 提高 GPU 利用率的方法

如上图的绿色框所示，Gpu-Util 是动态变化的。但如果出现 GPU 显存占用很高，模型也在 cuda 上面执行，但训练速度很慢，且 Gpu-Util 很低的情况；可能原因是 CPU 的数据加载太慢，尤其是在多卡服务器中，多个程序同时执行，这个问题会更加严重。

此时应该在 Pytorch 的 DataLoader 中设置 "pin_memory=True"，以及num_workers 参数：

python 复制代码

from torch.utils.data import DataLoader
train_dataloader = DataLoader(dataset, batch_size, pin_memory=True, num_workers=4)

pin_memory 用于设置是否在 dataloader 返回数据之前将 Tensors 复制到 device/CUDA 中，默认为 False。其作用是锁页内存，将数据存储在的固定内存页上，不与硬盘进行内存交换，从而提高将数据从 CPU 传输到 GPU 的效率。
num_workers 用于设置加载数据的多进程的数量，默认为 0。在 windows 系统下可能只能设置为 0，在 linux 中可以设置为大于 1 的数，具体设置与服务器的 CPU 数量、batch_size 等参数有关。

Pytorch DataLoader class 官方介绍：torch.utils.data.DataLoader

实际使用中，在 batch_size=32 时，设置 pin_memory=True 和 num_workers=4 的训练速度是设置 pin_memory=False和 num_workers=0 的 40 倍。