Watchdog caught collective operation timeout: WorkNCCL...

最近在使用pytorch框架的分布式多卡跑深度学习模型时,遇到了该问题,并且出错位置随机,无任何明确错误提示:

此前,也遇到过类似的问题,排查原因在于使用coco数据集做检测时,coco的训练集和验证集均存在有些数据没有label(即没有检测框的数据),损失计算有问题,从而导致了多卡训练在进行信息通信时卡死现象。本次初步排查出错位置在于:loss.backward(), 即梯度回传出错。

为了解决该问题,仍然排查数据问题,将coco没有标签的数据剔除,然而问题并没有解决。进一步排查发现,读取数据时是有标签的,经过了transform之后,边界框消失了!

所以问题在于transform中的随机裁剪操作,有可能将当前图片的所有label均裁剪在之外。进一步解决:重新多次transform,直到该数据的transform之后保持有label,问题解决。

总结:核心原因是数据corrupted/incomplete,解决数据问题,即可解决该问题。

相关推荐
盟接之桥21 分钟前
盟接之桥说制造:引流品 × 利润品,全球电商平台高效产品组合策略(供讨论)
大数据·linux·服务器·网络·人工智能·制造
忆~遂愿44 分钟前
ops-cv 算子库深度解析:面向视觉任务的硬件优化与数据布局(NCHW/NHWC)策略
java·大数据·linux·人工智能
湘-枫叶情缘1 小时前
1990:种下那棵不落叶的树-第6集 圆明园的对话
linux·系统架构
Fcy6482 小时前
Linux下 进程(一)(冯诺依曼体系、操作系统、进程基本概念与基本操作)
linux·运维·服务器·进程
袁袁袁袁满2 小时前
Linux怎么查看最新下载的文件
linux·运维·服务器
代码游侠2 小时前
学习笔记——设备树基础
linux·运维·开发语言·单片机·算法
Gary Studio2 小时前
rk芯片驱动编写
linux·学习
mango_mangojuice2 小时前
Linux学习笔记(make/Makefile)1.23
java·linux·前端·笔记·学习
Harvey9032 小时前
通过 Helm 部署 Nginx 应用的完整标准化步骤
linux·运维·nginx·k8s
A星空1233 小时前
一、Linux嵌入式的I2C驱动开发
linux·c++·驱动开发·i2c