[pytorch]torch.cuda用法以及判断显卡是不是存在问题

常见用法:

torch.cuda.is_available() # 查看是否有可用GPU

torch.cuda.device_count() # 查看GPU数量

torch.cuda.get_device_capability(device) # 查看指定GPU容量

torch.cuda.get_device_name(device) # 查看指定GPU名称

torch.cuda.empty_cache() # 清空程序占用的GPU资源

torch.cuda.manual_seed(seed) # 设置随机种子

torch.cuda.manual_seed_all(seed) # 设置随机种子

torch.cuda.get_device_properties(i) # i为第几张卡,显示该卡的详细信息

场景问题:我使用torch.cuda.device_count()返回1但是我用nvidia-smi显示是2个显卡,这个是为啥呢?

第一个原因:你在环境变量设置了CUDA_VISIBLE_DEVICES

第二个原因:你显卡坏了一个,如何判断是不是坏了可以使用上面接口测试

import torch

device=torch.device("cuda:0")

print(torch.cuda.get_device_capability(device))

把0改成1如果报错则表示1这个显卡有问题或者不存在,据此可以判断显卡坏了。但是这个只是系统层面表示坏了。还需要进一步判断。首先重启系统在测试一次,不行就把显卡拔插一下,依然不行则做最后尝试把系统重装一次(这个一般都没效果),还不行只能说明显卡坏了。

相关推荐
2501_92164949几秒前
股指期货 API 入门指南:如何获取实时行情与构建交易系统
python·websocket·金融·区块链·restful
一招定胜负2 分钟前
opencv图片处理常见操作
人工智能·opencv·计算机视觉
byzh_rc3 分钟前
[机器学习-从入门到入土] 特征选择
人工智能·机器学习
Hcoco_me4 分钟前
大模型面试题41:RoPE改进的核心目标与常见方法
开发语言·人工智能·深度学习·自然语言处理·transformer·word2vec
Toky丶4 分钟前
【文献阅读】Half-Quadratic Quantization of Large Machine Learning Models
人工智能·机器学习
海棠AI实验室5 分钟前
海光DCU部署全攻略:开箱、配置到AI训练的最佳实践|2026工程化版本
人工智能·dcu·海光
LDG_AGI6 分钟前
【推荐系统】深度学习训练框架(二十三):TorchRec端到端超大规模模型分布式训练+推理实战
人工智能·分布式·深度学习·机器学习·数据挖掘·推荐算法
沛沛老爹9 分钟前
Web开发者快速上手AI Agent:基于Function Calling的提示词应用优化实战
java·人工智能·llm·agent·web·企业开发·function
张彦峰ZYF10 分钟前
提示词工程(Prompt Engineering):核心技巧进阶与工程化流程
人工智能·prompt·提示词工程·用清晰明确的话语表达任务意图·在可能情况下用示例去阐明输出·根据任务类型灵活选择提示策略·提示设计视作迭代工程非单次输入
AI浩11 分钟前
ARConv:用于遥感全色锐化的自适应矩形卷积
人工智能·目标跟踪