LSF 主机状态 unreach 分析

在LSF集群运行过程中,有主机状态变为 unreach。熟悉LSF的朋友都知道主机状态为 unreach 表示主机上的 SBD 服务中断服务了,但其它服务 LIM 和 RES 还在正常运行。

影响分析

那么主机上的 SBD 服务中断的影响是什么呢?

我们需要先明白 SBD 服务的功能是什么。主机上 SBD 服务的功能主要是从MBD接收派发到主机上的任务并运行任务、向MBD报告任务的资源使用情况、监控任务运行状态。

因此,如果 SBD 服务中断的影响有如下几项:

  1. 主机不再接收新的任务,调度器发现主机状态异常后不会再向主机派发任务,从而造成计算资源浪费;

  2. 任务的资源使用情况不能及时收集到,会影响到资源使用的统计分析功能,从而影响资源使用计费等;

  3. 任务的状态不能及时收集;

  4. 不能控制任务,比如挂起任务、恢复任务、终止任务等;

原因分析

主机状态成为 unreach 的原因有以下几项:

  1. 误操作终止了 SBD 服务;

  2. /tmp 空间满了;SBD 运行过程中需要在 /tmp 下创建临时文件,如果 /tmp 没有可用空间则会导致 SBD 服务终止;

解决方法

对于 /tmp 空间不足的问题,需要先清理空间,或增加存储空间,然后再启动 SBD 服务。

如果 /tmp 空间充足,则只需要重启 SBD 服务。

以 root 身份登录主机,并运行以下命令启动 SBD 服务。

badmin hstartup

或者在管理节点上运行如下命令,记得将 host_name 替换为主机名称。

badmin hstartup host_name

相关推荐
DarrenHChen_EDA6 天前
【Backend Flow工程实践 27】Backend Script Template:一个可维护的后端脚本体系应该如何组织?
eda·log·tcl·parameter·regression·backend flow·script template
DarrenHChen_EDA7 天前
【Backend Flow工程实践 21】DRC / Antenna / Metal Fill:为什么 route 之后还远没有结束?
antenna·eda·routing·apr·drc·backend flow·metal fill
DarrenHChen_EDA7 天前
【Backend Flow工程实践 23】Backend-to-PV Handoff:从 DEF/GDS 到物理验证,后端如何完成签核交接?
lvs·eda·pv·gds·drc·backend flow·def
DarrenHChen_EDA8 天前
【Backend Flow工程实践 16】从 Scan Chain 到 Placement:测试结构为什么会影响后端布局?
eda·dft·apr·placement·scan chain·backend flow·可测性设计
DarrenHChen_EDA8 天前
【Backend Flow工程实践 19】CTS:从 skew group 到 clock route rule,时钟树综合到底在综合什
eda·apr·cts·backend flow·skew group
DarrenHChen_EDA10 天前
【Backend Flow工程实践 12】Collection / Property / Filter:为什么对象查询能力决定 Backend 脚本工程上限?
eda
DarrenHChen_EDA11 天前
【Backend Flow工程实践 14】IO / Macro / Row:物理约束如何决定后端实现的搜索空间?
eda
倾心琴心1 个月前
【agent辅助pcb routing coding学习】实践9 CU GR 代码 算法学习
算法·agent·pcb·eda·routing
倾心琴心2 个月前
【agent辅助pcb routing coding学习】实践3 kicad routing tools 从PCB文件获取了哪些信息
算法·agent·pcb·eda·routing
倾心琴心2 个月前
【agent辅助pcb routing coding学习】实践4 kicad pcb 核心类层次关系
算法·agent·pcb·eda·routing