INTERNAL ASSERT FAILED at “/pytorch/c10/cuda/CUDACachingAllocator.cpp“:983

NVML_SUCCESS == DriverAPI::get()->nvmlInit_v2_()

问题描述

在使用GPU运行模型(有其他人也在用这个GPU)并使用同一条数据反复调用时,偶尔 会出现下面的异常:

bash 复制代码
Traceback (most recent call last):
  File "/data/gpu_info.py", line 21, in <module>
    img = deepcopy(img)
  File "/data/envs/birefnet/lib/python3.10/copy.py", line 153, in deepcopy
    y = copier(memo)
  File "/data/envs/birefnet/lib/python3.10/site-packages/torch/_tensor.py", line 172, in __deepcopy__
    new_storage = self._typed_storage()._deepcopy(memo)
  File "/data/envs/birefnet/lib/python3.10/site-packages/torch/storage.py", line 1134, in _deepcopy
    return self._new_wrapped_storage(copy.deepcopy(self._untyped_storage, memo))
  File "/data/envs/birefnet/lib/python3.10/copy.py", line 153, in deepcopy
    y = copier(memo)
  File "/data/envs/birefnet/lib/python3.10/site-packages/torch/storage.py", line 239, in __deepcopy__
    new_storage = self.clone()
  File "/data/envs/birefnet/lib/python3.10/site-packages/torch/storage.py", line 253, in clone
    return type(self)(self.nbytes(), device=self.device).copy_(self)
RuntimeError: NVML_SUCCESS == DriverAPI::get()->nvmlInit_v2_() INTERNAL ASSERT FAILED at "/pytorch/c10/cuda/CUDACachingAllocator.cpp":983, please report a bug to PyTorch.

问题排查

nvidia-smi无法正常使用。由于某些客观原因,服务器不能重启,也就无法使显卡驱动恢复正常。

检查GPU资源

检查显存:随机用一个大尺寸的Tensor,塞进GPU显存中,反复复制,发现正在使用的显存剩余空间不多(不足4M)

问题解决

通过上面的方式找到容量够用的显存,将代码放在该GPU上运行,问题解决。

相关推荐
Godspeed Zhao14 小时前
自动驾驶中的传感器技术82——Sensor Fusion(5)
人工智能·机器学习·自动驾驶
安达发公司14 小时前
安达发|赢在智造赛道:给新能源汽车,装上“自动排产软件”导航
大数据·人工智能·汽车·aps高级排程·aps排程软件·安达发aps·自动排产软件
自不量力的A同学14 小时前
阶跃星辰(StepFun)已于近期正式发布了开源图像生成模型 NextStep
人工智能·数据挖掘·回归
Kobebryant-Manba14 小时前
重启深度学习之路安装anaconda
人工智能·深度学习
易营宝14 小时前
运营海外社交媒体平台的KPI设置与预算分配模板
大数据·人工智能·媒体
yaoh.wang14 小时前
力扣(LeetCode) 119: 杨辉三角 II - 解法思路
数据结构·python·算法·leetcode·面试·职场和发展·跳槽
invicinble14 小时前
arthas
开发语言·python
liliangcsdn14 小时前
如何在jupyter-lab显示http链接的图片
python·jupyter
Coovally AI模型快速验证14 小时前
开放词汇3D实例分割新思路:框引导+超点融合,精准检索罕见物体
人工智能·计算机视觉·3d·语言模型·机器人·无人机
拓端研究室14 小时前
2025机器人行业白皮书:人形机器人、工业机器人、具身智能、核心零部件|附200+份报告PDF、数据、可视化模板汇总下载
人工智能