服务器上用Slurm 管理训练bash 脚本任务，申明使用GPU

首先写配置

复制代码

# slurm.conf - 单机A800服务器配置
ClusterName=a800_cluster
ControlMachine=localhost
SlurmctldPort=6817
SlurmdPort=6818
SlurmUser=slurm
AuthType=auth/munge

# 日志配置
SlurmctldLogFile=/var/log/slurm/slurmctld.log
SlurmdLogFile=/var/log/slurm/slurmd.log
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmdPidFile=/var/run/slurmd.pid
StateSaveLocation=/var/spool/slurmctld
SlurmdSpoolDir=/var/spool/slurmd

# 调度参数
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
MpiDefault=none
TaskPlugin=task/affinity,task/cgroup

# 超时设置
SlurmctldTimeout=300
SlurmdTimeout=300
InactiveLimit=0
MinJobAge=300
KillWait=30
Waittime=0


# 性能优化参数
FastSchedule=1
MessageTimeout=10
TCPTimeout=2

# GPU相关配置
GresTypes=gpu
AutoDetect=none

# 任务管理
JobCompType=jobcomp/none
AccountingStorageType=accounting_storage/none

# 定义计算节点

NodeName=localhost NodeAddr=127.0.0.1   CPUs=128 Sockets=2 CoresPerSocket=32 ThreadsPerCore=2   Gres=gpu:8    State=UNKNOWN 

# 定义分区（队列）
PartitionName=gpu Nodes=localhost Default=YES MaxTime=INFINITE State=UP    OverSubscribe=NO 

PartitionName=gpu-debug Nodes=localhost Default=NO MaxTime=02:00:00 State=UP   OverSubscribe=NO DefMemPerGPU=24576

PartitionName=cpu Nodes=localhost Default=NO MaxTime=24:00:00 State=UP   OverSubscribe=YES
# 内存管理
#DefMemPerCPU=8192
#MaxMemPerCPU=16384
#DefMemPerNode=1048576
ProctrackType=proctrack/pgid

根据配置

确认GRES类型 ：在 slurm.conf 文件的开头部分，应该有类似下面的全局配置，声明支持的GRES类型：
bash 复制代码
```
GresTypes=gpu
```
统一GPU资源类型 ：为了简化请求，建议将节点配置中的GRES类型改为通用的 gpu。这样用户只需请求 --gres=gpu:1。
bash 复制代码
```
# 修改后
NodeName=localhost ... Gres=gpu:8 ...
```
如果确实需要区分A800和其他型号的GPU，可以在 gres.conf 中通过 Type 字段指定。

2. 创建并配置 `gres.conf` 文件

这是最关键的一步 。请在您的计算节点（本例中是localhost）上创建或编辑 /etc/slurm/gres.conf 文件。

bash 复制代码

# 示例 /etc/slurm/gres.conf 配置
NodeName=localhost Name=gpu  File=/dev/nvidia0
NodeName=localhost Name=gpu  File=/dev/nvidia1
NodeName=localhost Name=gpu  File=/dev/nvidia2
NodeName=localhost Name=gpu  File=/dev/nvidia3
NodeName=localhost Name=gpu  File=/dev/nvidia4
NodeName=localhost Name=gpu  File=/dev/nvidia5
NodeName=localhost Name=gpu  File=/dev/nvidia6
NodeName=localhost Name=gpu  File=/dev/nvidia7

File=/dev/nvidia[0-7] 指明了GPU设备的路径，Slurm通过它们与物理GPU交互。请根据您系统上实际的GPU设备文件进行修改，可以使用 ls /dev/nvidia* 命令查看。

3. 验证调度插件配置

确保 slurm.conf 中配置了支持GRES的调度插件：

bash 复制代码

SelectType=select/cons_tres
SelectTypeParameters=CR_Core

4. 重启服务并验证配置

完成所有配置修改后，必须重启Slurm服务以使更改生效，然后验证配置是否正确。

bash 复制代码

# 重新加载或重启服务（在控制节点和计算节点上执行）
sudo systemctl restart slurmctld
sudo systemctl restart slurmd

# 验证节点是否正确识别了GPU资源
scontrol show node localhost | grep Gres

命令输出应明确显示该节点有8个GPU资源可用，例如 Gres=gpu:8。

验证分区和节点状态

sinfo -o "%N %G %P %T" # 查看节点名称、GRES、分区和状态

5. 测试GPU作业提交

配置正确后，再次尝试提交作业：

bash 复制代码

srun -p gpu --gres=gpu:1 nvidia-smi

如果配置完全正确，此命令应能成功执行并输出NVIDIA-SMI的信息。

⚠️ 注意事项

配置文件权限 ：确保 slurm.conf 和 gres.conf 文件对所有相关节点上的Slurm用户（通常是 slurm）可读。
配置一致性：集群中所有节点上的Slurm配置文件必须保持一致。
查看日志 ：如果问题依旧，请检查Slurm的日志文件（如 /var/log/slurm/slurmd.log 和 /var/log/slurm/slurmctld.log），通常能找到具体的错误信息。

服务器上用Slurm 管理训练bash 脚本任务，申明使用GPU

首先写配置

2. 创建并配置 gres.conf 文件

3. 验证调度插件配置

4. 重启服务并验证配置

验证分区和节点状态

5. 测试GPU作业提交

⚠️ 注意事项

2. 创建并配置 `gres.conf` 文件