简单示例一个部署架构图,如下所示:

📘 各组件说明:
✅ 服务器端组件(控制节点)
- Slurm :
slurmctld
(主控调度器),slurmdbd
(数据库服务) - PBS Pro :
pbs_server
(主控服务),pbs_sched
(调度器) - LSF :
mbatchd
(主控调度器),lsadmin
(管理工具)
✅ 客户端组件(计算节点)
- Slurm :
slurmd
(守护进程,接收并执行任务) - PBS Pro :
pbs_mom
(任务管理器) - LSF :
res
和sbatchd
(资源和作业守护进程)
✅ 共享存储系统
- 所有节点通过网络挂载统一的文件系统,用于读写作业数据。
✅ 主控服务和调度器是否部署在同一台服务器?
情况一:小型或中型集群
- 主控服务(如
pbs_server
、slurmctld
) 和 调度器(如pbs_sched
、slurmdbd
) 通常部署在同一台服务器上。 - 优点:
- 简化部署和维护;
- 节省硬件资源;
- 网络通信延迟低。
情况二:大型或高可用集群
- 主控服务和调度器可以部署在不同的服务器 上,甚至采用冗余部署(如主备模式)。
- 例如:
- Slurm 支持将
slurmctld
和slurmdbd
分开部署; - PBS Pro 可以将
pbs_server
和pbs_sched
分离,提高调度性能; - LSF 支持多级调度架构,调度器可以分布式部署。
- Slurm 支持将
集群规模 | 是否分离部署主控与调度器 | 推荐做法 |
---|---|---|
小型(<50节点) | ❌ 不分离 | 同一台服务器部署即可 |
中型(50--500) | ✅ 可选分离 | 根据负载决定是否分离 |
大型(>500) | ✅ 建议分离 | 提高性能与可维护性 |
高可用需求 | ✅ 建议主备部署 | 增加容错能力 |