报错 watcgdog: BUG; soft lockup -CPU#0 stuck for 26s! [swapper/0:1]

文章目录

  • 可能的原因
  • 解决方法
    • [1. 检查硬件](#1. 检查硬件)
    • [2. 更新系统和内核](#2. 更新系统和内核)
    • [3. 调整内核参数](#3. 调整内核参数)
    • [4. 检查虚拟机和资源使用情况](#4. 检查虚拟机和资源使用情况)
    • [5. 检查日志](#5. 检查日志)
    • [6. 禁用不必要的服务](#6. 禁用不必要的服务)
    • [7. 测试虚拟化配置](#7. 测试虚拟化配置)
  • 注意事项

这样的错误信息,通常表示系统遇到了"软锁定"(soft lockup)问题。软锁定是指某个 CPU 核心在指定的时间内没有响应内核的调度请求,导致系统认为该 CPU 核心被"卡住"了。

可能的原因

硬件问题:

CPU 或内存故障。

主板或电源问题。

硬盘 I/O 问题(尤其是使用机械硬盘时)。

内核问题:

内核 bug 或与当前硬件不兼容。

内核模块(如驱动程序)出现问题。

资源争用:

某个进程或虚拟机占用了过多的 CPU 资源,导致内核无法正常调度。

高负载情况下,I/O 或内存资源耗尽。

过热:

CPU 或系统过热,导致性能下降或锁定。

虚拟化问题:

虚拟机配置不当或虚拟机内部出现问题。

虚拟化驱动程序(如 KVM、QEMU)的 bug。

解决方法

1. 检查硬件

运行内存测试工具(如 memtest86+)检查内存是否有问题。

检查 CPU 温度是否正常(使用 lm-sensors 或 IPMI 工具)。

检查硬盘健康状况(使用 smartctl 工具)。

确保电源供应稳定。

2. 更新系统和内核

更新 Proxmox VE 到最新版本:

bash 复制代码
apt update
apt dist-upgrade

如果问题仍然存在,尝试切换到更新的内核版本:

bash 复制代码
pve-efiboot-tool refresh
reboot

3. 调整内核参数

编辑 /etc/sysctl.conf,增加以下参数以延长 watchdog 的超时时间:

bash 复制代码
kernel.watchdog_thresh = 30

然后运行 sysctl -p 使配置生效。

4. 检查虚拟机和资源使用情况

检查是否有虚拟机占用了过多的 CPU 或 I/O 资源。

尝试关闭或迁移部分虚拟机,观察问题是否仍然存在。

5. 检查日志

查看系统日志(/var/log/syslog 或 journalctl -xe),寻找更多线索。

检查是否有其他错误信息或警告。

6. 禁用不必要的服务

如果运行了不必要的服务或容器,尝试禁用它们以减少系统负载。

7. 测试虚拟化配置

如果问题与虚拟机相关,尝试调整虚拟机的 CPU 类型(如从 host 改为 kvm64)。

检查虚拟机的磁盘 I/O 配置,确保没有过度负载。

注意事项

如果问题频繁发生,建议备份重要数据,以防系统崩溃导致数据丢失。

在调整内核参数或更新系统时,确保有备份或快照,以便在出现问题时可以回滚。

相关推荐
kunkun1017 小时前
关于软件测试中的bug
python·bug·压力测试
用键盘当武器的秋刀鱼1 天前
springboot-bug
java·spring boot·bug
无人等人2 天前
CyberRT(apollo) 定时器模块简述及bug分析
bug
fengdongnan2 天前
bug小记
bug
天才测试猿2 天前
解决Selenium元素拖拽不生效Bug
linux·自动化测试·软件测试·python·selenium·测试工具·bug
四角小裤儿儿2 天前
软件测试(三)——Bug篇
功能测试·面试·单元测试·bug
开发者工具分享2 天前
测试是如何跟进和管理 bug
bug
Htht1115 天前
【Linux】之【Bug】VMware 虚拟机开机 一直卡在黑屏左上角下划线闪烁界面
linux·运维·bug
你的坚定6 天前
记Android12上一个原生bug引起的system_server crash
bug