LSF 主机状态 unreach 分析

在LSF集群运行过程中,有主机状态变为 unreach。熟悉LSF的朋友都知道主机状态为 unreach 表示主机上的 SBD 服务中断服务了,但其它服务 LIM 和 RES 还在正常运行。

影响分析

那么主机上的 SBD 服务中断的影响是什么呢?

我们需要先明白 SBD 服务的功能是什么。主机上 SBD 服务的功能主要是从MBD接收派发到主机上的任务并运行任务、向MBD报告任务的资源使用情况、监控任务运行状态。

因此,如果 SBD 服务中断的影响有如下几项:

  1. 主机不再接收新的任务,调度器发现主机状态异常后不会再向主机派发任务,从而造成计算资源浪费;

  2. 任务的资源使用情况不能及时收集到,会影响到资源使用的统计分析功能,从而影响资源使用计费等;

  3. 任务的状态不能及时收集;

  4. 不能控制任务,比如挂起任务、恢复任务、终止任务等;

原因分析

主机状态成为 unreach 的原因有以下几项:

  1. 误操作终止了 SBD 服务;

  2. /tmp 空间满了;SBD 运行过程中需要在 /tmp 下创建临时文件,如果 /tmp 没有可用空间则会导致 SBD 服务终止;

解决方法

对于 /tmp 空间不足的问题,需要先清理空间,或增加存储空间,然后再启动 SBD 服务。

如果 /tmp 空间充足,则只需要重启 SBD 服务。

以 root 身份登录主机,并运行以下命令启动 SBD 服务。

badmin hstartup

或者在管理节点上运行如下命令,记得将 host_name 替换为主机名称。

badmin hstartup host_name

相关推荐
悟乙己19 天前
PySpark EDA 完整案例介绍,附代码(三)
数据挖掘·数据分析·pyspark·eda·数据清理
YoungUpUp1 个月前
【电子设计自动化(EDA)】Altium Designer25——电子设计自动化(EDA)软件版保姆级下载安装详细图文教程(附安装包)
运维·设计模式·fpga开发·自动化·eda·电路仿真·电子设计自动化
进击的奶龙3 个月前
05dc环境约束
eda
进击的奶龙3 个月前
04时序约束文件的编写
eda·dc综合
进击的奶龙3 个月前
03数字ic综合文件内部对象
eda·dc综合
三贝勒文子3 个月前
Synopsys 逻辑综合之 MultiBit Flip-Flop 与 ICG
fpga开发·eda·synopsys
进击的奶龙3 个月前
01数字IC综合
eda·dc综合
进击的奶龙3 个月前
02VCS_使用教程
verilog·仿真·eda
进击的奶龙3 个月前
01EDA简介
eda
阳排5 个月前
Virtuoso ADE采用Spectre仿真中出现MOS管最小长宽比满足要求依然报错的情况解决方法
集成电路·eda·virtuoso·ade