DCU获取计算节点

胖大和尚2026-06-08 15:04

很好，现在硬件已经确定了。

你这不是 NVIDIA CUDA 集群，而是海光 DCU 集群。

关键字段：

Gres=dcu:Hygon:4

说明：

每个节点 4 张 DCU
厂商：Hygon（海光）
Slurm 资源类型：dcu

节点配置：

CPU：32核

内存：126GB

DCU：4张

⸻

申请一个节点

交互式申请：

salloc -p kshdexclu10 -N 1

或者直接进入 Shell：

srun -p kshdexclu10 -N 1 --pty bash

成功后：

hostname

应该看到：

j16r2n01

之类的计算节点名。

⸻

查看 DCU 状态

进入节点后先执行：

hy-smi

如果没有：

rocm-smi

或者：

which hy-smi

which rocm-smi

⸻

查看软件环境

module avail

重点看看有没有：

rocm

dtk

hip

hcc

之类模块。

⸻

最简单的测试

进入节点后：

rocminfo

或者：

hipconfig

确认 ROCm/HIP 环境是否存在。

⸻

你的学习路线需要调整一下

如果是 NVIDIA：

CUDA

nvcc

nvidia-smi

而你这个平台是：

海光 DCU

HIP

ROCm

hy-smi

虽然编程模型和 CUDA 很像：

global

blockIdx.x

threadIdx.x

这些概念基本一致。

很多 CUDA 程序甚至可以通过：

hipify-perl

自动转换成 HIP。

⸻

建议先跑官方 Hello World

申请节点后执行：

module avail | egrep "rocm|hip|dcu"

把输出发出来。

然后执行：

which hipcc

如果能找到：

/opt/rocm/bin/hipcc

我可以直接给你一个海光 DCU 的 Hello World 程序：

global void hello()

{

printf("Hello DCU\n");

}

然后：

hipcc hello.cpp -o hello

./hello

验证 4 张 DCU 是否正常工作。

从你提供的信息来看，这个平台非常适合学习：

HIP 编程
GPU 并行计算
CUDA → HIP 迁移
国产 GPU 生态

而且你已经有节点权限，可以直接上手跑第一个 GPU 程序了。

上一篇：你的 GPU 在偷偷摸鱼——聊聊梯度压缩与异步训练

下一篇：用SymPy自动求解三角形构造与全等条件验证

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06【AI前线观察】2026年国产开源大模型全面横评：从 DeepSeek V4 到 Kimi K3，谁才是开发者的最优选择？07国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 102026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元