技巧-PyTorch中num_works的作用和实验测试

本专栏为深度学习的一些技巧,方法和实验测试,偏向于实际应用,后续不断更新,感兴趣童鞋可关,方便后续推送

简介

在 PyTorch 中,num_workers 是 DataLoader 中的一个参数,用于控制数据加载的并发线程数。它允许您在数据加载过程中使用多个线程,以提高数据加载的效率。

具体来说,num_workers 参数指定了 DataLoader 在加载数据时将创建的子进程数量。当 num_workers 大于 0 时,DataLoader 会自动利用多个子进程来加速数据加载。这有助于减少主进程的等待时间,并使得数据加载更加并行化。

例如,如果您有一个大型数据集需要加载,而且您的系统有多个 CPU 核心可用,您可以使用 num_workers 参数来提高数据加载的效率。假设您的系统有 4 个 CPU 核心,您可以将 num_workers 设置为 4,以使 DataLoader 在每个核心上创建一个子进程,并行加载数据.

使用方法

下面是一个示例代码,演示了如何使用 num_workers 参数来加速数据加载:

cpp 复制代码
python
import torch  
from torch.utils.data import DataLoader  
from torchvision import datasets, transforms  
  
# 定义数据预处理操作  
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])  
  
# 加载数据集  
train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)  
  
# 创建 DataLoader,设置 num_workers 为 4  
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True, num_workers=4)  
 # 训练模型...

在上述示例中,我们使用 MNIST 数据集,设置了 num_workers 为 4,以利用系统的 4 个 CPU 核心并行加载数据。这将加速数据加载的过程,使得模型训练更加高效。

实测效果

我采用MMDetetion训练,它可以通过钩子函数统计每一iter的数据读取耗时(data_time)和总耗时(time)

当num_works设置为1时打印结果如下:
当num_works设置为4时打印结果如下:
实验效果与理论一致

相关推荐
测试员周周6 小时前
【Appium 系列】第16节-WebView-H5上下文切换 — 混合应用的自动化难点
运维·开发语言·人工智能·功能测试·appium·自动化·测试用例
测试19986 小时前
软件测试 - 单元测试总结
自动化测试·软件测试·python·测试工具·职场和发展·单元测试·测试用例
K姐研究社8 小时前
怎么用AI制作电商口播视频,开拍APP一键生成
人工智能·音视频
LaughingZhu9 小时前
Product Hunt 每日热榜 | 2026-05-21
前端·人工智能·经验分享·chatgpt·html
曲幽9 小时前
我用了FastApiAdmin后,连夜把踩过的坑都整理出来了
redis·python·postgresql·vue3·fastapi·web·sqlalchemy·admin·fastapiadmin
传说故事9 小时前
【论文阅读】MotuBrain: An Advanced World Action Model for Robot Control
论文阅读·人工智能·具身智能·wam
小鹏linux9 小时前
Ubuntu 22.04 部署开源免费具有精美现代web页面的Casdoor账号管理系统
linux·前端·ubuntu·开源·堡垒机
北京耐用通信10 小时前
全域适配工业场景耐达讯自动化Modbus TCP 转 PROFIBUS 网关轻松实现以太网与现场总线互通
网络·人工智能·网络协议·自动化·信息与通信
火山引擎开发者社区10 小时前
TRAE × 火山引擎 Supabase:为你的 AI 应用装上“数据引擎”
人工智能
weixin_4462608510 小时前
[特殊字符] 视觉Transformer (ViT) 原理及性能突破:从CNN到大规模自注意力机制的迁移
深度学习·cnn·transformer