排查解决 nvidia-suspend 导致的 linux 系统无响应/死机问题

文章目录

发现问题

ubuntu 系统一天内死机了 5 次, 物理表现为电源与风扇仍在运行, 但屏幕黑屏, 键鼠无响应, ssh 无法连上, 只能强制关机后重启

系统信息如下

sh 复制代码
Linux 5.8.0-59-generic #66~20.04.1-Ubuntu SMP Thu Jun 17 11:14:10 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
NVIDIA-SMI 570.172.08

排查问题

使用 last reboot 命令确定各次死机后重启的时间, 间接获取大概的死机时间

sh 复制代码
reboot   system boot  5.8.0-59-generic Fri Aug  1 17:19   still running
reboot   system boot  5.8.0-59-generic Fri Aug  1 15:55   still running
reboot   system boot  5.8.0-59-generic Fri Aug  1 14:23   still running
reboot   system boot  5.8.0-59-generic Fri Aug  1 13:44   still running
reboot   system boot  5.8.0-59-generic Fri Aug  1 11:43   still running

查看系统日志文件 /var/log/syslog /var/log/syslog.1 中死机时间前后的日志, 观察到规律, 每次死机前最后一段日志都是 nvidia-suspend.service 相关如下:

已知 systemd-suspend.service (可用 sudo systemctl suspend 命令手动触发) 会导致系统挂起, 表现为电源与风扇均在运转, 但键鼠无反应, 可通过按一下电源按钮唤醒

现在相信 "死机" 现象为 nvidia-suspend.service 触发的系统挂起现象, 搜索 linux nvidia suspend, 发现多个网页反馈 nvidia-suspend.service 引起的系统无响应问题, 至此问题基本确定

解决问题

sh 复制代码
# 禁用 nvidia suspend 相关服务
# 注意每次装新的 nvidia driver 后需重新禁用
sudo systemctl disable nvidia-suspend
sudo systemctl disable nvidia-hibernate
sudo systemctl disable nvidia-suspend-then-hibernate
reboot

查看相关服务是否已被禁用: systemctl list-unit-files | grep nvidia, 输出结果如下, 可见已成功禁用

sh 复制代码
nvidia-hibernate.service                                                  disabled        enabled
nvidia-powerd.service                                                     disabled        enabled
nvidia-resume.service                                                     enabled         enabled
nvidia-suspend-then-hibernate.service                                     disabled        enabled
nvidia-suspend.service                                                    disabled        enabled

后续持续观察是否还会出现系统无响应现象

参考链接

Tip for anyone having trouble with suspend/resume with NVIDIA: disable the NVIDIA systemd power management services, then reboot.
https://www.reddit.com/r/pop_os/comments/1hp90yy/tip_for_anyone_having_trouble_with_suspendresume/

相关推荐
冷小鱼7 分钟前
从 Docker 到容器编排:框架选型与指令详解实战指南
运维·docker·容器·k8s·docker compose·docker swarm
nashane11 分钟前
HarmonyOS 6学习:解决无限循环动画被打断后“消失“的诡异问题
运维·nginx·harmonyos 5
csg110716 分钟前
智慧养殖篇(四):猪场自动化饲喂与疫病预警
运维·单片机·嵌入式硬件·物联网·自动化
java_logo19 分钟前
轻量AI接口网关一键部署|calciumion/new-api Windows/Linux Docker 部署全教程
linux·人工智能·windows·one api·calciumion·ai网关部署·one api 部署
原来是猿21 分钟前
Linux - 【理解进程组、会话与作业控制】
linux·运维·服务器
2501_9458374322 分钟前
OpenClaw:重新定义 AI 智能体,从对话到执行的革命
服务器
wearegogog12330 分钟前
Modbus TCP 通讯协议实现
服务器·网络·tcp/ip
怀旧,38 分钟前
【Linux网络编程】1. 网络基础概念
linux·网络
程序员老邢1 小时前
【技术底稿 34】文件存储服务域名切换 & S3 兼容性问题全复盘
运维·文件存储·seaweedfs·程序员日常·技术底稿·s3兼容·线上问题复盘