介绍
本文章详细说明如何为NVIDIA DGX B200系列服务器制作测试系统盘。DGX B200是NVIDIA推出的高性能AI服务器产品线,专为深度学习训练和推理任务优化。
测试盘中包含有:ipmitool,gpu-burn,Fieldiag,DCGMi,NCCL等测试工具。
文章包含安装方法,使用方法,以及注意事项!!
制作系统盘
通过工具写入Ubuntu 24.04.2版本的ISO镜像。
此文章通过Ventoy启动盘写入的镜像文件,如有需要请自行通过浏览器查阅相关资料。
Ventoy是一个开源的多系统启动盘制作工具,它支持将多个ISO/WIM/IMG/VHD(x)/EFI文件直接拷贝到U盘中即可启动,无需反复格式化U盘。
官网镜像地址:
Ubuntu Releases
https://releases.ubuntu.com/
基本配置与下载
配置允许root用户远程
Ubuntu 系统出于安全考虑默认禁止 root 用户通过 SSH 进行远程登录。若确实需要开启 root 用户的远程登录权限,可以按照以下步骤操作:
设置root密码
bash
#调用root权限修改root密码
sudo passwd root
#调用root权限输入当前用户密码
#若有提示密码需要满足8个字符不用理会,root可以强制修改
#切换用户尝试密码
sudo su - root

修改ssh配置文件
bash
#编辑ssh配置文件
vim /etc/ssh/sshd_config
#取消注释并修改一下内容
Port 22
......
PermitRootLogin yes
#重启ssh服务
systemctl restart ssh


测试网络连通性
配置网络IP
查看网卡名称和IP,若没有IP请如下配置:
bash
#查看网卡名称
ip add
#启用网卡并分配IP
ip link set <网卡名称> up
dhcpcd <网卡名称>


配置DNS解析
本文章是通过本机1.1转发的DNS,所以没有配置DNS解析地址,若有需要请参考一下配置:
bash
#查看当前DNS配置
resolvectl status
#尝试解析网址
nslookup baidu.com
#配置DNS文件
#取消注释并添加解析地址
DNS=8.8.8.8 114.114.114 202.96.134.133



安装基本工具
bash
#更新并下载工具包
apt update
#更新中若有报错,只要不影响下载就不用理会
apt install -y net-tools ipmitool unzip
apt install -y build-essential
# build-essential中以包含部署的主要工具,所以其他部署工具不许要另外下载。
(含有:gcc,g++,make,libc6-dev,dpkg-dev等基础编译工具)
系统环境安装
安装NVIDIA驱动
官方驱动下载地址:
NVIDIA官方驱动
https://www.nvidia.cn/drivers/lookup/执行安装即可
bash
#下载后导入系统并赋予权限执行即可
chmod +x NVIDIA-Linux-x86_64-580.65.06.run
./NVIDIA-Linux-x86_64-580.65.06.run
#安装中提示选择默认第一个即可!





安装迈络思驱动
官方下载地址:
迈络思官方驱动
https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/解压执行安装即可


安装CUDA
NVIDIA官方下载地址
https://developer.nvidia.com/cuda-toolkit-archive执行安装即可
bash
#下载后赋予执行权限,执行即可
chmod +x cuda_13.0.0_580.65.06_linux.run
./cuda_13.0.0_580.65.06_linux.run
#中途输入accetp,回车和选择install继续安装,回车
#安装完成后配置CUDA设置全局配置(直接输入)
export CUDA_HOME=/usr/local/cuda-13.0
export PATH=${CUDA_HOME}/bin:${PATH}
export LD_LIBRARY_PATH=${CUDA_HOME}/Iib64:${LD_LIBRARY_PATH}
#更新全局变量并查看CUDA版本
apt install -y nvidia-cuda-toolkit
cd
source .bashrc
nvcc -V




安装gpu-burn压测工具
解压编译安装即可
bash
#解压压缩文件
unzip gpu-burn-master.zip
#进入文件目录并编译
cd gpu-burn-master.zip
make
#编译完成后文件目录内会出现gpu-brun的可执行文件


安装nvidia-fabricmanager服务
bash
#直接网络下载即可
apt install -y nvidia-fabricmanager-580
#下载后需要在有模组的物理服务器环境上才能开启并查看此服务状态。
#如果有模组环境下活动(Active)属性哪里会显示活动已激活状态,没有模组的话会显示失败。
systemctl status nvidia-fabricmanager.service
systemctl start nvidia-fabricmanager.service
#如果安装时有提示缺少安装依赖的话,可以nvidia官网下载相关包安装既可。
dpkg -i <文件名称>.deb
#安装完成后再次查看状态,状态正常就说明没有问题了

安装完后就可以测试gpu-burn压测了,有问题时尝试重新安装nvidia-fabricmanager.service服务。
bash
#执行文件即可,-t表示多多线程,-c表示测试算力,最后压测时间单位为s/秒。
./gpu-burn -tc 3600
安装Fieldiag(FLD)
安装nvidia-imex服务
官方下载地址:https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2404/x86_64/
nvidia-imex服务是用于NVLink Multi-Node CUDA作业的关键组件,主要负责节点间的消息交换和通信管理,如果不安装的话Fieldiag测试可能会出错
bash
#下载导入后dpkg安装即可
dpkg -i nvidia-imex_580.65.06-1_amd64.deb

安装FLD
bash
#解压既可,不同版本看后缀格式解压
unzip 629-26287-0001-FLD-42704.zip
tar -zxvf 629-26287-0102-FLD-43576.tar.gz
#进入目录赋予全部文件执行权限即可,FLD属于脚本文件免安装文件,不需要安装编译。
chmod +x ./*

安装DCGM
bash
#直接dpkg安装即可
dpkg -i datacenter-gpu-manager-4-core_4.1.1_amd64.deb
dpkg -i datacenter-gpu-manager-4-cuda12_4.1.1_amd64.deb
#直接测试使用即可,如果安装成功会显示没有测试实体
dcgmi diag -r 4
|----------------|-----------------------------------------------------------------|-------------------------------------------|
| 子命令 | 参数 / 用法 | 作用说明 |
| dcgmi health | -i <GPU编号>:指定 GPU -s:检查并输出健康状态(PASS/FAIL) -v:详细健康报告(含故障码) | 检测 GPU 硬件健康状态(显存、供电、散热、PCIe 链路等),输出故障原因。 |
| dcgmi diag | -i <GPU编号>:指定 GPU -r:运行完整诊断(含压力测试) -f <文件>:输出诊断报告到文件 | 执行 GPU 深度诊断(比 health 更全面),包含显存读写测试、算力验证等。 |
| dcgmi errors | -i <GPU编号>:指定 GPU -c:清空错误日志 -l:列出所有错误日志(含时间 / 类型) | 查看 / 清理 GPU 错误日志(硬件错误、驱动错误、CUDA 错误等)。 |


安装nccl
安装openmpi
官方下载地址
https://www.open-mpi.org/software/ompi/v3.1/openmpi-4.1.8的包可能与nccl相关联,直接下载解压执行安装文件即可
bash
#解压进入目录
tar -zxvf openmpi-4.1.8.tar.gz
cd openmpi-4.1.8/
#执行文件自带安装文件即可(若无执行权限,赋予权限既可)
./configure
安装nccl
bash
#dpkg安装deb格式文件
dpkg -i libnccl2_2.28.3-1+cuda13.0_amd64.deb
dpkg -i libnccl-dev_2.28.3-1+cuda13.0_amd64.deb
#unzip解压zip格式文件并编译安装
unzip nccl-tests-master.zip
cd nccl-tests-master/ && make
