pytorch:debug dataLoader for循环的时候,很卡顿,进不去transform里面断点

推荐解决方案:

  • 前一进程还未处理完,又进入下一个导致互锁,在一个Epoch完了后,或者每次获取一个batch数据后停顿一下: time.sleep(0.003)
  • 内存问题,使用开关:pin_memory=True/False
  • 多进程导致互锁问题,减少进程数,或直接使用一个:num_workers=0/1
  • 使用其他DataLoader的问题,改为: from torch.utils.data.dataloader import DataLoader
  • 内存大小不够的问题:writing 8192 to /proc/sys/kernel/shmmni
  • 如果脚本中同时使用了OpenCV,可能是OpenCV与Pytorch互锁的问题。
  • 关闭OpenCV的多线程:
  • cv2.setNumThreads(0)
  • cv2.ocl.setUseOpenCL(False)
  • 是否存在打开文件未关闭的问题:[openfile].close()
相关推荐
shayudiandian11 分钟前
用PyTorch训练一个猫狗分类器
人工智能·pytorch·深度学习
这儿有一堆花16 分钟前
把 AI 装进终端:Gemini CLI 上手体验与核心功能解析
人工智能·ai·ai编程
子午28 分钟前
【蘑菇识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·python·深度学习
Mr_Xuhhh33 分钟前
pytest -- 指定⽤例执⾏顺序
开发语言·python·pytest
tokepson36 分钟前
关于python更换永久镜像源
python·技术·记录
模型启动机38 分钟前
Langchain正式宣布,Deep Agents全面支持Skills,通用AI代理的新范式?
人工智能·ai·langchain·大模型·agentic ai
F_D_Z39 分钟前
【解决办法】网络训练报错AttributeError: module ‘jax.core‘ has no attribute ‘Shape‘.
开发语言·python·jax
Python私教43 分钟前
别让 API Key 裸奔:基于 TRAE SOLO 的大模型安全配置最佳实践
人工智能
Python私教1 小时前
Vibe Coding 体验报告:我让 TRAE SOLO 替我重构了 2000 行屎山代码,结果...
人工智能
prog_61031 小时前
【笔记】和各大AI语言模型写项目——手搓SDN后得到的经验
人工智能·笔记·语言模型