软死锁的检测--看门狗

软死锁(Soft Lockup)检测中,看门狗(Watchdog)的核心原理是 通过周期性检查 CPU 调度是否正常,判断是否因任务长时间霸占 CPU 导致无法调度其他任务,以下展开说明:

1. 基础机制:定时器 + 内核线程

  • 定时器触发 :系统为每个 CPU 启动高精度定时器(hrtimer) ,周期性执行 watchdog_timer_fn 函数(类似 "定时检查" 逻辑),默认间隔由 watchdog_thresh 控制(通常初始 10 秒,可通过 sysctl 调整 )。
  • 内核线程辅助 :同时,为每个 CPU 创建优先级最高的内核线程(如 watchdog/XX 为 CPU 编号 ),线程运行时会调用 __touch_watchdog() 更新时间戳(watchdog_touch_ts) ,标记 "CPU 调度正常"。

2. 检测逻辑:对比时间戳判断 "僵死"

定时器到期后,watchdog_timer_fn 会执行关键检查:

  • 读取当前时间 now,并获取上一次 "喂狗" 的时间戳 touch_ts(即线程更新的 watchdog_touch_ts )。
  • 计算时间差 now - touch_ts,若差值 超过 watchdog_thresh 阈值(比如默认 10 秒),则认为:
    CPU 上的任务长期霸占资源,导致内核线程无法正常调度(连优先级最高的看门狗线程都无法更新时间戳),判定发生 软死锁 。

简单说:若 "定时检查" 发现 "喂狗" 超时,说明 CPU 调度被长时间阻塞,触发软死锁告警。

3. 响应动作:告警与故障处理

  • 基础告警 :检测到软死锁时,内核会打印堆栈跟踪(dmesg 日志能看到进程调用链 ),方便定位是哪个任务 / 函数长期占用 CPU。
  • 进阶配置 :可通过 kernel.softlockup_panic 等参数,设置触发软死锁时直接让系统 panic(内核崩溃),或结合 panic_timeout 自动重启,避免系统长期僵死。

4. 典型场景与原理适配

比如某 CPU 上有个无限循环的内核任务(如驱动 bug 导致死循环 ),会持续霸占 CPU,使看门狗线程无法获得调度权 → 时间戳无法更新 → 定时器检查超时 → 触发软死锁告警。这也体现了看门狗的核心价值:用 "定时喂狗 - 超时检测" 机制,暴露 CPU 调度异常,让运维 / 开发能快速定位系统 "僵死" 根源。

总结来说,软死锁看门狗是通过定时检查 CPU 调度心跳(时间戳) 的机制,发现并告警 "任务长期阻塞 CPU 导致无法调度" 的问题,本质是用 "周期性验证" 确保系统调度的活性 。

相关推荐
SelectDB1 天前
Litefuse 开源并推出单进程轻量模式,25 秒就能跑起来的 Agent 可观测与评估平台
运维·后端·自动化运维
zzzzzz3103 天前
9K Star 炸裂开源!这个 C 语言写的代码知识图谱,把 Linux 内核索引压缩到了 3 分钟
linux·服务器·sql
XIAOHEZIcode3 天前
Linux系统鼠标偏移常见原因以及修复方案
linux·运维·游戏
用户0328472220703 天前
如何搭建本地yum源(上)
运维
大树886 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠6 天前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
霸道流氓气质6 天前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务
小宇宙Zz6 天前
Maven依赖冲突
java·服务器·maven
Inhand陈工6 天前
基于台达PLC与映翰通IG502的智慧水产养殖精准投喂与远程运维解决方案
运维·人工智能·物联网·阿里云·信息与通信
网络研究院6 天前
2026年网络安全
网络·安全·法律·法规·趋势·发展