LSF 主机状态 unreach 分析

在LSF集群运行过程中,有主机状态变为 unreach。熟悉LSF的朋友都知道主机状态为 unreach 表示主机上的 SBD 服务中断服务了,但其它服务 LIM 和 RES 还在正常运行。

影响分析

那么主机上的 SBD 服务中断的影响是什么呢?

我们需要先明白 SBD 服务的功能是什么。主机上 SBD 服务的功能主要是从MBD接收派发到主机上的任务并运行任务、向MBD报告任务的资源使用情况、监控任务运行状态。

因此,如果 SBD 服务中断的影响有如下几项:

  1. 主机不再接收新的任务,调度器发现主机状态异常后不会再向主机派发任务,从而造成计算资源浪费;

  2. 任务的资源使用情况不能及时收集到,会影响到资源使用的统计分析功能,从而影响资源使用计费等;

  3. 任务的状态不能及时收集;

  4. 不能控制任务,比如挂起任务、恢复任务、终止任务等;

原因分析

主机状态成为 unreach 的原因有以下几项:

  1. 误操作终止了 SBD 服务;

  2. /tmp 空间满了;SBD 运行过程中需要在 /tmp 下创建临时文件,如果 /tmp 没有可用空间则会导致 SBD 服务终止;

解决方法

对于 /tmp 空间不足的问题,需要先清理空间,或增加存储空间,然后再启动 SBD 服务。

如果 /tmp 空间充足,则只需要重启 SBD 服务。

以 root 身份登录主机,并运行以下命令启动 SBD 服务。

badmin hstartup

或者在管理节点上运行如下命令,记得将 host_name 替换为主机名称。

badmin hstartup host_name

相关推荐
倾心琴心7 天前
【agent辅助pcb routing coding学习】实践3 kicad routing tools 从PCB文件获取了哪些信息
算法·agent·pcb·eda·routing
倾心琴心7 天前
【agent辅助pcb routing coding学习】实践4 kicad pcb 核心类层次关系
算法·agent·pcb·eda·routing
倾心琴心7 天前
【agent辅助pcb routing coding学习】实践1 kicad pcb 格式讲解
算法·agent·pcb·eda·routing
倾心琴心7 天前
【agent辅助pcb routing coding学习】实践5 kicad类按类别理解
算法·agent·pcb·eda·routing
MOON404☾12 天前
R语言EDA学习笔记
笔记·学习·数据分析·r语言·eda
星马梦缘2 个月前
EDA彩灯电路绘制
单片机·嵌入式硬件·物联网·pcb·eda·嘉立创
存内计算开发者2 个月前
CIM逻辑综合:从多目标优化到FreeBDD的演进
eda·存算一体·后摩尔时代·数字架构·协同设计·忆阻器·r ra m
belldeep2 个月前
什么是探索性数据分析 (EDA)?
数据挖掘·数据分析·eda
ltqshs2 个月前
立创EDA使用初体验
eda
七夜zippoe2 个月前
事件驱动架构:构建高并发松耦合系统的Python实战
开发语言·python·架构·eda·事件驱动