阿里云国际站GPU:怎么通过控制台自助排查功能诊断GPU?

目录

操作步骤

具体配置

诊断信息


TG:@yunlaoda360

GPU实例在运行过程中可能会存在潜在的故障隐患或者安全风险,例如显卡故障、驱动程序错误等问题,ECS管理控制台支持配置GPU设备健康检查功能,方便您自行诊断当前实例的GPU卡或驱动是否存在异常,及时发现并解决潜在问题。

操作步骤

操作前,请确认GPU实例处于运行中状态。

  1. 登录ECS管理控制台。

  2. 在左侧导航栏,单击自助问题排查

  3. 在页面左侧顶部,选择目标GPU实例所在地域。

  4. 实例问题排查 页签下,选择问题排查类型、检查项、实例ID和排查周期,然后单击开始排查

单击开始排查后,系统会自动创建一个诊断任务。同一时间段一个实例只允许执行一个诊断任务,且该任务完成后,需至少间隔5分钟,才能再次对该实例发起诊断任务。

具体配置

|--------|---------|----------------------------------------|
| 序号 | 配置项 | 说明 |
| ① | 问题排查类型 | 选择实例设备检测类型,用于检查实例的GPU卡或其他设备是否正常运行。 |
| ② | 检查项 | 选中GPU设备健康检查,用于检查实例的GPU卡状态或驱动状态等。 |
| ③ | 实例ID | 选择待检查的GPU实例ID。 |
| ③ | 排查周期 | 默认为您排查最近12小时内的问题,您也可以根据实际需要自行设置时间周期。 |

诊断完成后,查看诊断报告。

诊断信息

|---------|------------------------------------------------------------------------------------------|
| 配置项 | 说明 |
| 诊断结果 | * 如果各项检查均正常,则显示为实例未发现异常。 * 如果存在异常诊断项,则显示为实例存在多项异常,并显示异常详情和相应的修复方案,您可以参考修复方案解决问题。 |
| 诊断项详情 | 本文仅包含GPU设备和驱动的状态检查,级别分为严重、警告和通过。 |
| 诊断基础信息 | 包括资源ID、报告ID和诊断时间。 |

  1. (可选)实例问题排查 页签下,单击查看历史,查看当前实例的诊断历史详情。
相关推荐
2601_955256478 小时前
云服务器采购避坑指南:如何通过官方渠道获得更低折扣与更快服务
运维·服务器
清欢渡---9 小时前
三次握手四次挥手(对话场景)
运维·服务器·网络·hcia
weixin_408318049 小时前
腾讯云TRTC、声网、即构三款实时音视频SDK怎么选?2026实测对比
云计算·腾讯云·实时音视频
小脑斧1239 小时前
从入门到精通:Linux 进程间通信 IPC 全解析|管道、共享内存、信号量、消息队列实战
linux·运维·服务器
ABCDEEE79 小时前
3.RAG
java·linux·服务器
优化Henry9 小时前
LTE站点8通道RRU单通道驻波异常导致小区服务降级案例分析
运维·服务器·5g·信息与通信
为思念酝酿的痛9 小时前
Linux线程
linux·服务器·后端
樱桃花下的小猫10 小时前
幻兽帕鲁(Palworld)存档迁移与角色修复完全指南
服务器·幻兽帕鲁·新手友好·云鸢互联·零门槛一键开服·幻兽帕鲁服务器
大波V510 小时前
claude-code cli 跳过登录
java·服务器·前端
xiaobobo333010 小时前
Ubuntu 26.04如何安装替换国内源以提高软件下载速度
阿里云·更换国内镜像·ubuntu 26.04