简单示例一个部署架构图,如下所示:

📘 各组件说明:
✅ 服务器端组件(控制节点)
- Slurm :
slurmctld(主控调度器),slurmdbd(数据库服务) - PBS Pro :
pbs_server(主控服务),pbs_sched(调度器) - LSF :
mbatchd(主控调度器),lsadmin(管理工具)
✅ 客户端组件(计算节点)
- Slurm :
slurmd(守护进程,接收并执行任务) - PBS Pro :
pbs_mom(任务管理器) - LSF :
res和sbatchd(资源和作业守护进程)
✅ 共享存储系统
- 所有节点通过网络挂载统一的文件系统,用于读写作业数据。
✅ 主控服务和调度器是否部署在同一台服务器?
情况一:小型或中型集群
- 主控服务(如
pbs_server、slurmctld) 和 调度器(如pbs_sched、slurmdbd) 通常部署在同一台服务器上。 - 优点:
- 简化部署和维护;
- 节省硬件资源;
- 网络通信延迟低。
情况二:大型或高可用集群
- 主控服务和调度器可以部署在不同的服务器 上,甚至采用冗余部署(如主备模式)。
- 例如:
- Slurm 支持将
slurmctld和slurmdbd分开部署; - PBS Pro 可以将
pbs_server和pbs_sched分离,提高调度性能; - LSF 支持多级调度架构,调度器可以分布式部署。
- Slurm 支持将
| 集群规模 | 是否分离部署主控与调度器 | 推荐做法 |
|---|---|---|
| 小型(<50节点) | ❌ 不分离 | 同一台服务器部署即可 |
| 中型(50--500) | ✅ 可选分离 | 根据负载决定是否分离 |
| 大型(>500) | ✅ 建议分离 | 提高性能与可维护性 |
| 高可用需求 | ✅ 建议主备部署 | 增加容错能力 |