INTERNAL ASSERT FAILED at “/pytorch/c10/cuda/CUDACachingAllocator.cpp“:983

NVML_SUCCESS == DriverAPI::get()->nvmlInit_v2_()

问题描述

在使用GPU运行模型(有其他人也在用这个GPU)并使用同一条数据反复调用时,偶尔 会出现下面的异常:

bash 复制代码
Traceback (most recent call last):
  File "/data/gpu_info.py", line 21, in <module>
    img = deepcopy(img)
  File "/data/envs/birefnet/lib/python3.10/copy.py", line 153, in deepcopy
    y = copier(memo)
  File "/data/envs/birefnet/lib/python3.10/site-packages/torch/_tensor.py", line 172, in __deepcopy__
    new_storage = self._typed_storage()._deepcopy(memo)
  File "/data/envs/birefnet/lib/python3.10/site-packages/torch/storage.py", line 1134, in _deepcopy
    return self._new_wrapped_storage(copy.deepcopy(self._untyped_storage, memo))
  File "/data/envs/birefnet/lib/python3.10/copy.py", line 153, in deepcopy
    y = copier(memo)
  File "/data/envs/birefnet/lib/python3.10/site-packages/torch/storage.py", line 239, in __deepcopy__
    new_storage = self.clone()
  File "/data/envs/birefnet/lib/python3.10/site-packages/torch/storage.py", line 253, in clone
    return type(self)(self.nbytes(), device=self.device).copy_(self)
RuntimeError: NVML_SUCCESS == DriverAPI::get()->nvmlInit_v2_() INTERNAL ASSERT FAILED at "/pytorch/c10/cuda/CUDACachingAllocator.cpp":983, please report a bug to PyTorch.

问题排查

nvidia-smi无法正常使用。由于某些客观原因,服务器不能重启,也就无法使显卡驱动恢复正常。

检查GPU资源

检查显存:随机用一个大尺寸的Tensor,塞进GPU显存中,反复复制,发现正在使用的显存剩余空间不多(不足4M)

问题解决

通过上面的方式找到容量够用的显存,将代码放在该GPU上运行,问题解决。

相关推荐
一点一木3 小时前
🚀 2026 年 6 月 GitHub 十大热门项目排行榜 🔥
人工智能·github
aneasystone本尊3 小时前
学习 turbovec 的 SIMD 搜索内核
人工智能
阳光是sunny12 小时前
别再被 worktree 绕晕了!AI 编程时代你必须掌握的 Git 隔离神器
前端·人工智能·后端
冬奇Lab12 小时前
每日一个开源项目(第148篇):obsidian-skills - Obsidian CEO 亲写的 AI Agent 格式规范,让 Agent 不再破坏你的 Vault
人工智能·开源·资讯
ethantan12 小时前
AI Agent 组成:像人一样思考的智能体
人工智能·程序员·架构
冬奇Lab13 小时前
Workflow 系列(05):评测体系——三层测试结构与 Trace 追踪
人工智能·工作流引擎
ethantan13 小时前
一篇讲解AI Agent 组成:像人一样思考的智能体
人工智能·后端·程序员
apocelipes15 小时前
常用编程语言和库的正则表达式性能对比
c语言·c++·python·性能优化·golang·开发工具和环境
Cosolar15 小时前
vLLM 生产级部署完全指南
人工智能·后端·架构
CodePlayer竟然被占用了15 小时前
被美国政府封杀18天,Claude Fable 5 回来了——但代价是什么?
人工智能