关于Ubuntu的 update造成的内核升级

背景:

注:当前状态无业游民,如有合适工作岗位求捞:个人简历

proxmox8虚拟化的Ubuntu vm实例,vm实例做了显卡直通:Proxmox VE 8.4 显卡直通完整指南:NVIDIA 2080 Ti 实战。安装了 NVIDIA cuda驱动,搭建了comfyui:ubuntu 22.04 anaconda comfyui。前几天刚刚升级了proxmox8到proxmox9:proxmox8升级到proxmox9

今天启动comfyui突然出现了异常:

使用如下命令启动comfyui:

plain 复制代码
systemctl start comfyui
systemctl status comfyui

但是浏览器访问15070端口无法访问:

执行netstat命令发现 15070端口确实没有监听:

plain 复制代码
netstat -ntlp

继续执行 systemctl status comfyui 发现:No CUDA GPUs are available

排查过程:

proxmox测排查

难道proxmox系统升级,pci直通失效了?登录web控制台发现vm实例pci设备在:

vm实例测排查

使用shell登录vm实例执行如下命令,NVIDIA设备也在。但是应该是驱动掉了

plain 复制代码
nvidia-smi
lsmod |grep nvidia
dmesg | grep -i nvidia
uname -a
lspci | grep -i vga

我是直接偷懒重新安装了一下显卡驱动:

plain 复制代码
cd /data/soft/
./NVIDIA-Linux-x86_64-570.144.run

参照:ubuntu22.04安装显卡驱动与cuda+cuDNN

启动comfyui测试

使用如下命令启动comfyui,测试程序是否启动:

plain 复制代码
systemctl start comfyui
systemctl status comfyui
netstat -ntlp

执行执行如

复盘:

什么造成的这种问题呢?仔细想了一下,我有执行过apt-get upgrade apt-get update命令:

是否是发生了内核升级?,如何避免这种状况呢?

禁止内核自动升级

锁定当前内核版本

plain 复制代码
# 查看当前内核版本
uname -r
# 锁定linux-image和linux-headers包
sudo apt-mark hold linux-image-generic linux-headers-generic
sudo apt-mark hold linux-image-$(uname -r) linux-headers-$(uname -r)
# 搜索并列出当前系统中所有被标记为"保留(hold)"状态的软件包
dpkg --get-selections | grep hold

通过这次update代理的思考:

  1. vm实例的备份还是很有必要的(当然了主要我这里是个人的测试环境,正式环境肯定会随时备份镜像)
  2. 用习惯了 redhat系列的 centos rockylinux 操作系统。没有锁定内核的习惯,对于Ubuntu操作系统hold一些关键的内核or其他软件包还是很有必要的。
相关推荐
消失的旧时光-19436 分钟前
Linux 编辑器入门:nano 与 vim 的区别与选择指南
linux·运维·服务器
斯普信专业组7 分钟前
构建基于MCP的MySQL智能运维平台:从开源服务端到交互式AI助手
运维·mysql·开源·mcp
liu****1 小时前
2.深入浅出理解虚拟化与容器化(含Docker实操全解析)
运维·c++·docker·容器·虚拟化技术
starfire_hit1 小时前
JAVAWEB根据前台请求获取用户IP
java·服务器·网络
池央1 小时前
CANN 诊断工具链深度解析:oam-tools 的自动化故障信息收集、软硬件状态快照与 AI Core 错误溯源机制
运维·人工智能·自动化
云边有个稻草人2 小时前
打工人摸鱼新姿势!轻量斗地主服务器,内网穿透让同事远程联机不翻车
运维·服务器·cpolar
阿钱真强道2 小时前
12 JetLinks MQTT直连设备事件上报实战(继电器场景)
linux·服务器·网络·数据库·网络协议
乾元2 小时前
终端安全(EDR):用深度学习识别未知勒索软件
运维·人工智能·网络协议·安全·网络安全·自动化·安全架构
wbs_scy2 小时前
Linux 进阶指令实操指南:文件查看、时间管理、搜索压缩全场景覆盖(附高频案例)
linux·运维·服务器
安科瑞刘鸿鹏172 小时前
高速路灯故障难定位?用 ASL600 实现精确单灯监测与维护预警
运维·网络·物联网·安全