IBM Spectrum LSF 重要的目录和配置文件

IBM Spectrum LSF 重要的目录和配置文件

LSF 配置通过多个配置文件进行管理,您可以使用这些配置文件来修改集群的行为。

四个重要的 LSF 配置文件

以下是您最常用的四个最重要的文件:

  • LSF_CONFDIR/lsf.conf
  • LSF_CONFDIR/lsf.cluster.cluster_name
  • LSF_CONFDIR/lsf.shared
  • LSB_CONFDIR/cluster_name/configdir/lsb.queues

这些文件是在产品安装期间根据您在 install.config 文件中指定的选项创建的。 安装后,您可以更改这些文件中的配置参数以满足站点的需要。

谁拥有这些文件

除了由 root 用户拥有的 LSF_CONFDIR/lsf.conf以外,所有这些文件都由主 LSF 管理员拥有,并且可供所有集群用户读取。

lsf.conf

LSF中最重要的文件。 它包含配置目录,日志目录,库和其他全局配置信息的路径。 lsf.conf 文件的位置由 LSF_ENVDIR 变量定义。 如果 LSF 找不到此文件,那么它无法正确启动。

缺省情况下, LSF 会检查 LSF_ENVDIR 参数定义的目录以查找 lsf.conf 文件的位置。 如果 lsf.conf 文件不在 LSF_ENVDIR中,那么 LSF 会在 /etc 目录中查找该文件。

lsf.cluster.cluster_name

定义集群中所有主机的主机名,型号和类型。 它还定义 LSF 管理员的用户名以及一个集群的不同共享资源的位置。

lsf.shared

此文件类似于定义集群所使用的所有关键字的字典。 您可以添加自己的关键字以指定资源或主机类型的名称。

lsb.queues

定义一个集群的工作负载队列及其参数。

LSF 目录

以下目录由主 LSF 管理员拥有,并且可供所有集群用户读取:


目录 描述 示例
LSF_CONFDIR LSF 配置目录 /usr/share/lsf/cluster1/conf/
LSB_CONFDIR 批处理系统配置目录 /usr/share/lsf/cluster1/conf/lsbatch/
LSB_SHAREDIR 作业历史记录目录 /usr/share/lsf/cluster1/work/
LSF_LOGDIR 服务器守护程序错误日志,每个守护程序一个 /usr/share/lsf/cluster1/log/

以下目录由 root 用户拥有,并且可供所有集群用户读取:


目录 描述 示例
LSF_BINDIR LSF 用户命令,由同一类型的所有主机共享 /usr/share/lsf/cluster1/10.1.0/sparc-sol10/bin/
LSF_INCLUDEDIR 头文件 lsf/lsf.h 和 lsf/lsbatch.h /usr/share/lsf/cluster1/10.1.0/include/
LSF_LIBDIR LSF 库,由同一类型的所有主机共享 /usr/share/lsf/cluster1/10.1.0/sparc-sol10/lib/
LSF_MANDIR LSF 联机帮助页 /usr/share/lsf/cluster1/10.1.0/man/
LSF_MISC 示例和其他杂项文件 /usr/share/lsf/cluster1/10.1.0/misc/
LSF_SERVERDIR 服务器守护程序二进制文件,脚本和其他实用程序,由同一类型的所有主机共享 /usr/share/lsf/cluster1/10.1.0/sparc-sol10/etc/
LSF_TOP 顶级安装目录 /usr/share/lsf/cluster1/

可以在 LSF_CONFDIR/lsf.conf 文件中指定其他配置目录。

LSF 集群配置文件

以下文件由主 LSF 管理员拥有,并且可供所有集群用户读取:


文件 示例
全局配置文件,用于描述集群的配置和操作 * /usr/share/lsf/cluster1/conf/ego/cluster1/kernel/ego.conf * /usr/share/lsf/cluster1/conf/lsf.conf
所有集群共享的关键字定义文件。 定义集群名称,主机类型,主机模型和特定于站点的资源 /usr/share/lsf/cluster1/conf/lsf.shared
用于定义站点定义的共享资源的主机,管理员和位置的集群配置文件 /usr/share/lsf/cluster1/conf/lsf.cluster.cluster1

LSF 批处理工作负载系统配置文件

以下文件由主 LSF 管理员拥有,并且可供所有集群用户读取:


文件 示例
服务器主机及其属性,例如调度负载阈值,分派窗口和作业槽限制。 如果此文件中未定义任何主机,那么假定 LSF_CONFDIR/lsf.cluster.cluster_name 中列出的所有 LSF 服务器主机都是 LSF 批处理服务器主机。 /usr/share/lsf/cluster1/conf/lsbatch/cluster1/configdir/lsb.hosts
LSF 调度程序和资源代理插件模块。 如果未配置调度程序或资源代理程序模块,那么 LSF 将使用名为 schmod_default的缺省调度程序插件模块。 /usr/share/lsf/cluster1/conf/lsbatch/cluster1/configdir/lsb.modules
LSF 批处理系统参数文件 /usr/share/lsf/cluster1/conf/lsbatch/cluster1/configdir/lsb.params
作业队列定义 /usr/share/lsf/cluster1/conf/lsbatch/cluster1/configdir/lsb.queues
资源分配限制,导出和资源使用限制。 /usr/share/lsf/cluster1/conf/lsbatch/cluster1/configdir/lsb.resources
LSF 用户组,用户和用户组的分层公平共享以及用户和用户组的作业槽限制。 还用于配置 LSF 多集群功能的帐户映射。 /usr/share/lsf/cluster1/conf/lsbatch/cluster1/configdir/lsb.users
应用程序概要文件,其中包含相同作业类型的公共参数,包括应用程序的执行需求,它们需要的资源以及它们的运行和管理方式。 此文件是可选的。 使用 lsb.params 文件中的 DEFAULT_APPLICATION 参数为所有作业指定缺省应用程序概要文件。 LSF 不会自动分配缺省应用程序概要文件。 /usr/share/lsf/cluster1/conf/lsbatch/cluster1/configdir/lsb.applicatons

LSF 批处理日志文件


文件 示例
批处理事件日志 /usr/share/lsf/cluster1/work/ cluster1/logdir/lsb.events
批处理记帐日志 /usr/share/lsf/cluster1/work/ cluster1/logdir/lsb.acct

守护程序日志文件

LSF 服务器守护程序日志文件存储在 LSF_CONFDIR/lsf.conf中由 LSF_LOGDIR 指定的目录中。


文件 示例
装入信息管理器 (lim) /usr/share/lsf/cluster1/log/lim.log.hosta
远程执行服务器 (res) /usr/share/lsf/cluster1/log/res.log.hosta
管理 批处理守护程序 (mbatchd) /usr/share/lsf/cluster1/log/ mbatchd.log.hosta
管理 调度程序守护程序 (mbschd) /usr/share/lsf/cluster1/log/mbschd.log.hosta
服务器 批处理守护程序 (sbatchd) /usr/share/lsf/cluster1/log/sbatchd.log.hosta
进程信息管理器 (pim) /usr/share/lsf/cluster1/log/ pim.log.hosta
相关推荐
高性能服务器9 天前
马斯克万卡集群AI数据中心引发的科技涟漪:智算数据中心挑战与机遇的全景洞察
数据中心·hpc·高性能计算·智算中心·马斯克ai数据中心·colossus·xai
景天科技苑11 天前
【云原生开发】K8S集群管理后端开发设计与实现
云原生·容器·kubernetes·集群管理·k8s二次开发
orlion1 个月前
使用AVX2指令集加速推荐系统MMR层余弦相似度计算
go·高性能计算
高性能服务器2 个月前
探索GPU算力在大模型和高性能计算中的无限潜能
算法·语言模型·gpu算力·hpc·高性能计算
迪普微社区4 个月前
解锁算力新极限,Xilinx UltraScale+赋能的高性能低延时FPGA加速卡
网络·fpga开发·fpga·芯片·xilinx·高性能计算·加速卡
小信瑞5 个月前
IBM Spectrum LSF Data Manager,独立于群集工作负载进行数据传输管理,以提高吞吐量并优化计算资源的使用
集群管理·计算资源管理·hpc·高性能计算·工作负载管理·作业调度系统·工作负载迁移
小信瑞5 个月前
分布式高性能计算 (HPC)的工作负载管理平台和作业调度程序—— IBM Spectrum® LSF® Suites
分布式·ibm lsf·计算资源管理·hpc·工作负载管理·作业调度系统·作业调度程序
云计算练习生7 个月前
docker容器技术篇:集群管理实战mesos+zookeeper+marathon(二)
docker·集群管理·mesos·zookeepe·marathon
小信瑞7 个月前
Altair® (澳汰尔)Grid Engine® 分布式资源管理系统
分布式·自动化·资源管理·高性能计算·澳汰尔·altair·资源管理系统
whyte王7 个月前
CUDA 12.4文档5 编程接口-使用CUDA运行时-初始化&设备内存
gpu·cuda·hpc·高性能计算