很好,现在硬件已经确定了。
你这不是 NVIDIA CUDA 集群,而是 海光 DCU 集群。
关键字段:
Gres=dcu:Hygon:4
说明:
- 每个节点 4 张 DCU
- 厂商:Hygon(海光)
- Slurm 资源类型:dcu
节点配置:
CPU:32核
内存:126GB
DCU:4张
⸻
申请一个节点
交互式申请:
salloc -p kshdexclu10 -N 1
或者直接进入 Shell:
srun -p kshdexclu10 -N 1 --pty bash
成功后:
hostname
应该看到:
j16r2n01
之类的计算节点名。
⸻
查看 DCU 状态
进入节点后先执行:
hy-smi
如果没有:
rocm-smi
或者:
which hy-smi
which rocm-smi
⸻
查看软件环境
module avail
重点看看有没有:
rocm
dtk
hip
hcc
之类模块。
⸻
最简单的测试
进入节点后:
rocminfo
或者:
hipconfig
确认 ROCm/HIP 环境是否存在。
⸻
你的学习路线需要调整一下
如果是 NVIDIA:
CUDA
nvcc
nvidia-smi
而你这个平台是:
海光 DCU
HIP
ROCm
hy-smi
虽然编程模型和 CUDA 很像:
global
blockIdx.x
threadIdx.x
这些概念基本一致。
很多 CUDA 程序甚至可以通过:
hipify-perl
自动转换成 HIP。
⸻
建议先跑官方 Hello World
申请节点后执行:
module avail | egrep "rocm|hip|dcu"
把输出发出来。
然后执行:
which hipcc
如果能找到:
/opt/rocm/bin/hipcc
我可以直接给你一个海光 DCU 的 Hello World 程序:
global void hello()
{
printf("Hello DCU\n");
}
然后:
hipcc hello.cpp -o hello
./hello
验证 4 张 DCU 是否正常工作。
从你提供的信息来看,这个平台非常适合学习:
- HIP 编程
- GPU 并行计算
- CUDA → HIP 迁移
- 国产 GPU 生态
而且你已经有节点权限,可以直接上手跑第一个 GPU 程序了。