INTERNAL ASSERT FAILED at “/pytorch/c10/cuda/CUDACachingAllocator.cpp“:983

NVML_SUCCESS == DriverAPI::get()->nvmlInit_v2_()

问题描述

在使用GPU运行模型(有其他人也在用这个GPU)并使用同一条数据反复调用时,偶尔 会出现下面的异常:

bash 复制代码
Traceback (most recent call last):
  File "/data/gpu_info.py", line 21, in <module>
    img = deepcopy(img)
  File "/data/envs/birefnet/lib/python3.10/copy.py", line 153, in deepcopy
    y = copier(memo)
  File "/data/envs/birefnet/lib/python3.10/site-packages/torch/_tensor.py", line 172, in __deepcopy__
    new_storage = self._typed_storage()._deepcopy(memo)
  File "/data/envs/birefnet/lib/python3.10/site-packages/torch/storage.py", line 1134, in _deepcopy
    return self._new_wrapped_storage(copy.deepcopy(self._untyped_storage, memo))
  File "/data/envs/birefnet/lib/python3.10/copy.py", line 153, in deepcopy
    y = copier(memo)
  File "/data/envs/birefnet/lib/python3.10/site-packages/torch/storage.py", line 239, in __deepcopy__
    new_storage = self.clone()
  File "/data/envs/birefnet/lib/python3.10/site-packages/torch/storage.py", line 253, in clone
    return type(self)(self.nbytes(), device=self.device).copy_(self)
RuntimeError: NVML_SUCCESS == DriverAPI::get()->nvmlInit_v2_() INTERNAL ASSERT FAILED at "/pytorch/c10/cuda/CUDACachingAllocator.cpp":983, please report a bug to PyTorch.

问题排查

nvidia-smi无法正常使用。由于某些客观原因,服务器不能重启,也就无法使显卡驱动恢复正常。

检查GPU资源

检查显存:随机用一个大尺寸的Tensor,塞进GPU显存中,反复复制,发现正在使用的显存剩余空间不多(不足4M)

问题解决

通过上面的方式找到容量够用的显存,将代码放在该GPU上运行,问题解决。

相关推荐
NAGNIP11 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab12 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab12 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP16 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年16 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
AI探索者16 小时前
LangGraph StateGraph 实战:状态机聊天机器人构建指南
python
AI探索者16 小时前
LangGraph 入门:构建带记忆功能的天气查询 Agent
python
九狼16 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS16 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区18 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤