DCU获取计算节点

很好,现在硬件已经确定了。

你这不是 NVIDIA CUDA 集群,而是 海光 DCU 集群。

关键字段:

Gres=dcu:Hygon:4

说明:

  • 每个节点 4 张 DCU
  • 厂商:Hygon(海光)
  • Slurm 资源类型:dcu

节点配置:

CPU:32核

内存:126GB

DCU:4张

申请一个节点

交互式申请:

salloc -p kshdexclu10 -N 1

或者直接进入 Shell:

srun -p kshdexclu10 -N 1 --pty bash

成功后:

hostname

应该看到:

j16r2n01

之类的计算节点名。

查看 DCU 状态

进入节点后先执行:

hy-smi

如果没有:

rocm-smi

或者:

which hy-smi

which rocm-smi

查看软件环境

module avail

重点看看有没有:

rocm

dtk

hip

hcc

之类模块。

最简单的测试

进入节点后:

rocminfo

或者:

hipconfig

确认 ROCm/HIP 环境是否存在。

你的学习路线需要调整一下

如果是 NVIDIA:

CUDA

nvcc

nvidia-smi

而你这个平台是:

海光 DCU

HIP

ROCm

hy-smi

虽然编程模型和 CUDA 很像:

global

blockIdx.x

threadIdx.x

这些概念基本一致。

很多 CUDA 程序甚至可以通过:

hipify-perl

自动转换成 HIP。

建议先跑官方 Hello World

申请节点后执行:

module avail | egrep "rocm|hip|dcu"

把输出发出来。

然后执行:

which hipcc

如果能找到:

/opt/rocm/bin/hipcc

我可以直接给你一个海光 DCU 的 Hello World 程序:

global void hello()

{

printf("Hello DCU\n");

}

然后:

hipcc hello.cpp -o hello

./hello

验证 4 张 DCU 是否正常工作。

从你提供的信息来看,这个平台非常适合学习:

  • HIP 编程
  • GPU 并行计算
  • CUDA → HIP 迁移
  • 国产 GPU 生态

而且你已经有节点权限,可以直接上手跑第一个 GPU 程序了。

相关推荐
高新打工人11 天前
DCU的Evict Buffer和Miss Buffer介绍
dcu·evict buffer·miss buffer
海棠AI实验室5 个月前
海光DCU部署全攻略:开箱、配置到AI训练的最佳实践|2026工程化版本
人工智能·dcu·海光
Snail_202512145 个月前
海光DCU节点架构
架构·cpu·dcu·海光
JadenOliver6 个月前
基于海光8张Z100L算力服务器,vLLM 部署全量微调过的 qwen2.5-32B大模型。
vllm·dcu·海光·z100l·qwen-2.5-32b·全量微调
腾讯数据架构师7 个月前
海光dcu 虚拟化适配
云原生·kubernetes·mlops·dcu·海光·cube studio·vdcu
花花少年2 年前
快速体验LLaMA-Factory 私有化部署和高效微调Llama3模型(曙光超算互联网平台异构加速卡DCU)
llama-factory·llama3·scnet·dcu·国产异构加速卡
花花少年2 年前
曙光超算互联网平台SCNet之国产异构加速卡DCU
scnet·dcu·国产异构加速卡·曙光超算·超算互联网平台