Pytorch DataLoader 提高模型训练时的 Volatile Gpu-Util(GPU利用率)

文章目录

  • [1. 查看GPU显存占比和利用率](#1. 查看GPU显存占比和利用率)
  • [2. Pytorch 提高 GPU 利用率的方法](#2. Pytorch 提高 GPU 利用率的方法)

1. 查看GPU显存占比和利用率

python 复制代码
watch -n 0.2 nvidia-smi

0.2 代表每隔 0.2 秒刷新一次 GPU 使用情况

通过调整 batch_size 可以使 Memory-Usage(GPU显存占比)尽可能高;但Volatile Gpu-Util(GPU利用率)通常在 0 ~ 100% 之间动态变化,因为 GPU 用于网络中的矩阵运算,但数据集是从 CPU 中加载的。所以在网络训练时 Gpu-Util 高,数据加载时 Gpu-Util 低。

2. Pytorch 提高 GPU 利用率的方法

如上图的绿色框所示,Gpu-Util 是动态变化的。但如果出现 GPU 显存占用很高,模型也在 cuda 上面执行,但训练速度很慢,且 Gpu-Util 很低的情况; 可能原因是 CPU 的数据加载太慢,尤其是在多卡服务器中,多个程序同时执行,这个问题会更加严重。

此时应该在 Pytorch 的 DataLoader 中设置 "pin_memory=True",以及num_workers 参数:

python 复制代码
from torch.utils.data import DataLoader
train_dataloader = DataLoader(dataset, batch_size, pin_memory=True, num_workers=4)
  • pin_memory 用于设置是否在 dataloader 返回数据之前将 Tensors 复制到 device/CUDA 中,默认为 False。其作用是锁页内存,将数据存储在的固定内存页上,不与硬盘进行内存交换,从而提高将数据从 CPU 传输到 GPU 的效率。
  • num_workers 用于设置加载数据的多进程的数量,默认为 0。在 windows 系统下可能只能设置为 0,在 linux 中可以设置为大于 1 的数,具体设置与服务器的 CPU 数量、batch_size 等参数有关。

Pytorch DataLoader class 官方介绍:torch.utils.data.DataLoader

实际使用中,在 batch_size=32 时,设置 pin_memory=True 和 num_workers=4 的训练速度是设置 pin_memory=False和 num_workers=0 的 40 倍。

相关推荐
撞南墙者7 分钟前
OpenCV自学系列(1)——简介和GUI特征操作
人工智能·opencv·计算机视觉
OCR_wintone4218 分钟前
易泊车牌识别相机,助力智慧工地建设
人工智能·数码相机·ocr
进击的六角龙26 分钟前
Python中处理Excel的基本概念(如工作簿、工作表等)
开发语言·python·excel
王哈哈^_^30 分钟前
【数据集】【YOLO】【VOC】目标检测数据集,查找数据集,yolo目标检测算法详细实战训练步骤!
人工智能·深度学习·算法·yolo·目标检测·计算机视觉·pyqt
一者仁心36 分钟前
【AI技术】PaddleSpeech
人工智能
写代码的小阿帆37 分钟前
pytorch实现深度神经网络DNN与卷积神经网络CNN
pytorch·cnn·dnn
是瑶瑶子啦44 分钟前
【深度学习】论文笔记:空间变换网络(Spatial Transformer Networks)
论文阅读·人工智能·深度学习·视觉检测·空间变换
一只爱好编程的程序猿1 小时前
Java后台生成指定路径下创建指定名称的文件
java·python·数据下载
EasyCVR1 小时前
萤石设备视频接入平台EasyCVR多品牌摄像机视频平台海康ehome平台(ISUP)接入EasyCVR不在线如何排查?
运维·服务器·网络·人工智能·ffmpeg·音视频
Aniay_ivy1 小时前
深入探索 Java 8 Stream 流:高效操作与应用场景
java·开发语言·python