机器信息
系统:rocklinux 9.4
架构:x86
前置操作:关闭防火墙和selinux
一、安装kernel-devel、kernel-headers
如果没有互联网环境,可以使用iso文件搭建本地镜像仓库,这两个包的版本一定要和当前系统的内核版本一致
bash
dnf install -y kernel-devel-$(uname -r) kernel-headers-$(uname -r)
二、安装dkms
dnf install -y dkms
三、安装驱动
rocklinux兼容rhel
可以使用rhel的rpm包:https://www.nvidia.cn/drivers/details/266455/
下载后安装
rpm -ivh nvidia-driver-local-repo-rhel9-590.48.01-1.0-1.x86_64.rpm
安装驱动
nvidia-driver可能会被过滤,导致dnf list | grep nvidia-driver,不显示驱动包,可以直接手动rpm安装
bash
cd /var/nvidia-driver-local-repo-rhel9-590.48.01
rpm -ivh nvidia-kmod-common-590.48.01-1.el9.noarch.rpm \
kmod-nvidia-latest-dkms-590.48.01-1.el9.x86_64.rpm \
nvidia-driver-590.48.01-1.el9.x86_64.rpm \
nvidia-driver-libs-590.48.01-1.el9.x86_64.rpm \
nvidia-driver-cuda-590.48.01-1.el9.x86_64.rpm \
nvidia-driver-cuda-libs-590.48.01-1.el9.x86_64.rpm \
libnvidia-ml-590.48.01-1.el9.x86_64.rpm \
libnvidia-cfg-590.48.01-1.el9.x86_64.rpm \
nvidia-modprobe-590.48.01-1.el9.x86_64.rpm \
nvidia-persistenced-590.48.01-1.el9.x86_64.rpm \
nvidia-fabricmanager-590.48.01-1.el9.x86_64.rpm \
--nodeps --force
检查驱动是否编译完成
bash
dkms install nvidia/590.48.01
执行结果
bash
[root@localhost nvidia-driver-local-repo-rhel9-590.48.01]# dkms install nvidia/590.48.01
Module nvidia/590.48.01 already installed on kernel 5.14.0-427.13.1.el9_4.x86_64 (x86_64), skip. You may override by specifying --force.
[root@localhost nvidia-driver-local-repo-rhel9-590.48.01]#
加载模块
modprobe nvidia
modprobe nvidia-uvm
启动SXM 专属服务用于显卡间通信
bash
systemctl enable --now nvidia-persistenced
systemctl enable --now nvidia-fabricmanager
查看显卡状态
nvidia-smi
执行结果,正常显示显卡信息则成功安装了驱动
bash
[root@h200-new ~]# nvidia-smi
Thu Apr 16 14:02:07 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 590.48.01 Driver Version: 590.48.01 CUDA Version: 13.1 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA H200 On | 00000000:19:00.0 Off | 0 |
| N/A 37C P0 78W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 1 NVIDIA H200 On | 00000000:3B:00.0 Off | 0 |
| N/A 32C P0 80W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 2 NVIDIA H200 On | 00000000:4C:00.0 Off | 0 |
| N/A 31C P0 76W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 3 NVIDIA H200 On | 00000000:5D:00.0 Off | 0 |
| N/A 35C P0 78W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 4 NVIDIA H200 On | 00000000:9B:00.0 Off | 0 |
| N/A 37C P0 77W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 5 NVIDIA H200 On | 00000000:BB:00.0 Off | 0 |
| N/A 33C P0 79W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 6 NVIDIA H200 On | 00000000:CB:00.0 Off | 0 |
| N/A 36C P0 78W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 7 NVIDIA H200 On | 00000000:DB:00.0 Off | 0 |
| N/A 32C P0 77W / 700W | 0MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+
[root@h200-new ~]#
四、安装docker和libnvidia-container
docker二进制包下载:https://download.docker.com/linux/static/stable/x86_64/
解压压缩包,将二进制文件移动至/usr/local/bin/下
新建service文件内容如下
/usr/lib/systemd/system/docker.service
[Unit]
Description=Docker Application Container Engine
Documentation=http://docs.docker.io
[Service]
Environment="PATH=/usr/local/bin:/bin:/sbin:/usr/bin:/usr/sbin"
ExecStart=/usr/local/bin/dockerd --log-level=error $DOCKER_NETWORK_OPTIONS \
--data-root=/data/docker/data
ExecReload=/bin/kill -s HUP $MAINPID
Restart=on-failure
RestartSec=5
LimitNOFILE=infinity
LimitNPROC=infinity
LimitCORE=infinity
Delegate=yes
KillMode=process
[Install]
WantedBy=multi-user.target
启动docker
systemctl daemon-reload
systemctl enable docker --now
安装libnvidia-container
下载地址:https://github.com/NVIDIA/libnvidia-container/tree/gh-pages/stable
安装
bash
[root@h200-new containerd-tools]# ls
libnvidia-container-tools-1.17.4-1.x86_64.rpm nvidia-container-toolkit-1.17.4-1.x86_64.rpm
libnvidia-container1-1.17.4-1.x86_64.rpm nvidia-container-toolkit-base-1.17.4-1.x86_64.rpm
[root@h200-new containerd-tools]# rpm -ivh *rpm
warning: libnvidia-container-tools-1.17.4-1.x86_64.rpm: Header V4 RSA/SHA512 Signature, key ID f796ecb0: NOKEY
Verifying... ################################# [100%]
Preparing... ################################# [100%]
Updating / installing...
1:nvidia-container-toolkit-base-1.1################################# [ 25%]
2:libnvidia-container1-1.17.4-1 ################################# [ 50%]
3:libnvidia-container-tools-1.17.4-################################# [ 75%]
4:nvidia-container-toolkit-1.17.4-1################################# [100%]
[root@h200-new containerd-tools]#
配置生效
nvidia-ctk runtime configure --runtime=docker
systemctl restart docker
五、使用sglang 启动模型
模型下载至:/data/llm/glm5.1-fp8
sglang镜像版本:lmsysorg/sglang:v0.5.10
启动sglang
bash
docker run -d \
--name sglang-glm5 \
--gpus all \
--ipc=host \
--ulimit memlock=-1 \
--ulimit stack=67108864 \
-p 30000:30000 \
-e SGLANG_ENABLE_SPEC_V2=1 \
-e CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
-e TORCHINDUCTOR_CACHE_DIR=/data/glmcache5.1 \
-v /data/llm/:/data/models \
--shm-size=32g \
--restart=always \
lmsysorg/sglang:v0.5.10 \
sglang serve \
--model-path /data/models/glm5.1-fp8 \
--served-model-name glm-5.1-fp8 \
--api-key xxxxxx \
--host 0.0.0.0 \
--tp 8 \
--reasoning-parser glm45 \
--tool-call-parser glm47 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.9 \
--context-length=184320 \
--max-running-requests=10 \
--max-prefill-tokens=8192
使用docker logs -f sglang-glm5 查看模型加载进度,等待模型加载完成
查看显卡使用情况
bash
[root@h200-new data]# nvidia-smi
Thu Apr 16 18:00:27 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 590.48.01 Driver Version: 590.48.01 CUDA Version: 13.1 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA H200 On | 00000000:19:00.0 Off | 0 |
| N/A 55C P0 136W / 700W | 141572MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 1 NVIDIA H200 On | 00000000:3B:00.0 Off | 0 |
| N/A 42C P0 126W / 700W | 141622MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 2 NVIDIA H200 On | 00000000:4C:00.0 Off | 0 |
| N/A 40C P0 122W / 700W | 141622MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 3 NVIDIA H200 On | 00000000:5D:00.0 Off | 0 |
| N/A 54C P0 135W / 700W | 141622MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 4 NVIDIA H200 On | 00000000:9B:00.0 Off | 0 |
| N/A 54C P0 132W / 700W | 141622MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 5 NVIDIA H200 On | 00000000:BB:00.0 Off | 0 |
| N/A 42C P0 123W / 700W | 141622MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 6 NVIDIA H200 On | 00000000:CB:00.0 Off | 0 |
| N/A 55C P0 135W / 700W | 141624MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 7 NVIDIA H200 On | 00000000:DB:00.0 Off | 0 |
| N/A 41C P0 123W / 700W | 140658MiB / 143771MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 161448 C sglang::scheduler_TP0 14156... |
| 1 N/A N/A 161449 C sglang::scheduler_TP1 14161... |
| 2 N/A N/A 161450 C sglang::scheduler_TP2 14161... |
| 3 N/A N/A 161451 C sglang::scheduler_TP3 14161... |
| 4 N/A N/A 161452 C sglang::scheduler_TP4 14161... |
| 5 N/A N/A 161453 C sglang::scheduler_TP5 14161... |
| 6 N/A N/A 161454 C sglang::scheduler_TP6 14161... |
| 7 N/A N/A 161455 C sglang::scheduler_TP7 14064... |
+-----------------------------------------------------------------------------------------+
[root@h200-new data]#
测试
bash
[root@h200-new llm]# curl http://localhost:30000/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer xxxxxxx" \
-d '{
"model": "glm-5.1-fp8",
"messages": [
{"role": "system", "content": "你是一个人工智能助手。"},
{"role": "user", "content": "你好,请确认你的模型版本,并简单介绍下 H100 GPU 的优势。"}
],
"temperature": 0.7
}'
{"id":"3dd2d8cbf57546bd926b30e35559dd8d","object":"chat.completion","created":1776325869,"model":"glm-5.1-fp8","choices":[{"index":0,"message":{"role":"assistant","content":"你好!我是一个由 Z.ai 开发的人工智能助手(基于 GLM 大语言模型)。\n\n关于 NVIDIA H100 GPU,它是基于 Hopper 架构的旗舰级数据中心 GPU,专为加速人工智能和高性能计算而设计。它的主要优势包括:\n\n1. **Transformer 引擎**:这是 H100 最大的亮点之一。它专门针对当前大语言模型(LLM)的基础------Transformer 架构进行了优化,能够动态分配 FP8 和 FP16 精度,在保持模型精度的同时,将大模型的训练和推理速度提升至前所未有的水平。\n2. **极高的性能飞跃**:相比上一代 A100,H100 在 AI 训练上最高可提供 9 倍的提升,在 AI 推理上最高可提供 30 倍的提升(特别是在结合 FP8 和 Transformer 引擎时)。\n3. **HBM3 高带宽内存**:H100 采用了更先进的 HBM3 内存,最高提供 80GB 容量和超过 3TB/s 的惊人带宽,极大缓解了大规模 AI 模型的"内存墙"问题。\n4. **第四代 NVLink 与 PCIe 5.0**:NVLink 互联带宽提升至 900GB/s,是 PCIe 5.0 的 7 倍,使得成千上万张 H100 组成的集群能够高效协同工作,构建超大规模计算集群。\n5. **原生 FP8 支持**:H100 是首批原生支持 FP8(8位浮点)数据格式的 GPU 之一,这不仅能将内存占用减半,还能大幅提高吞吐量,对 AI 推理极其有利。\n6. **DPX 指令集**:专门用于加速动态规划算法,在基因组学测序、物流路线优化等科学计算领域,速度比 A100 提升高达 7 倍。\n\n总的来说,H100 是目前大模型时代最重要的算力基础设施,凭借其针对 Transformer 的特化设计和极高的带宽,成为了训练和部署下一代 AI 的首选硬件。","reasoning_content":"1. **分析请求:**\n * 任务 1:确认我的模型版本。\n * 任务 2:简单介绍 H100 GPU 的优势。\n * 语言:中文。\n\n2. **处理任务 1:确认模型版本:**\n * *自我认知:* 我是一个人工智能助手。我的具体底层模型版本通常不作为硬编码字符串公开,但我是由 Z.ai 开发的大语言模型(GLM 系列)。我应该清楚地说明我是一个人工智能助手,并提及我的开发者/模型系列(GLM),而不必捏造特定的版本号(除非我绝对确定,但通常"由 Z.ai 开发的 GLM 大语言模型"是最准确和安全的回答)。\n * *起草:* 你好!我是一个由 Z.ai 训练的大语言模型(基于 GLM 架构)。\n\n3. **处理任务 2:介绍 H100 GPU 的优势:**\n * *主题:* NVIDIA H100 Hopper GPU。\n * *需要涵盖的关键优势:*\n * 架构:Hopper 架构(继 Ampere/A100 之后)。\n * 性能:AI 训练和推理的巨大飞跃。Transformer 引擎(对大语言模型至关重要)。\n * 内存/带宽:HBM3 内存(与 A100 的 HBM2e 相比,带宽大幅提升)。\n * 互连:NVLink 4.0(比第 3 代更快)、PCIe Gen 5。\n * 安全/可靠性:机密计算、原生 FP8 支持。\n * DPX 指令集:用于动态规划。\n * *构建介绍结构:* 使用项目符号以提高可读性。保持简洁但全面。\n * *起草要点:*\n 1. **Hopper 架构与 Transformer 引擎**:专门针对大语言模型(LLM)优化,自动分配 FP8/FP16 精度,大幅提升推理和训练速度。\n 2. **极致的性能提升**:相比上一代 A100,AI 训练速度提升数倍,推理速度最高提升 30 倍。\n 3. **更快的 HBM3 内存**:提供更高的内存带宽(最高可达 3TB/s),解决大规模模型的内存瓶颈。\n 4. **第四代 NVLink 与 PCIe 5.0**:多卡互联带宽翻倍,支持构建更大规模的计算集群。\n 5. **FP8 数据格式支持**:在保持精度的同时,大幅减少内存占用和计算时间。\n 6. **DPX 指令集**:加速动态规划算法,适用于基因组学、物流优化等领域。\n\n4. **审查与润色:**\n * 将两个回答流畅地结合起来。\n * 确保语气乐于助人且专业。\n * *起草时的自我纠正:* 确保不要声称自己是 GPT-4 或 Claude 3,因为那是不正确的。坚持 Z.ai/GLM 的身份。\n\n5. **最终输出生成(中文):**\n 你好!我是一个由 Z.ai 开发的人工智能助手(基于 GLM 大语言模型)。\n\n 关于 NVIDIA H100 GPU,它是基于 Hopper 架构的旗舰级数据中心 GPU,专为加速 AI 和高性能计算(HPC)而设计。它的主要优势包括:\n\n 1. **Transformer 引擎**:这是 H100 最大的亮点之一。它专门针对当前大语言模型(LLM)的基础------Transformer 架构进行了优化,能够动态分配 FP8 和 FP16 精度,在保持模型精度的同时,将大模型的训练和推理速度提升至前所未有的水平。\n 2. **极高的性能飞跃**:相比上一代 A100,H100 在 AI 训练上最高可提供 9 倍的提升,在 AI 推理上最高可提供 30 倍的提升(特别是在结合 FP8 和 Transformer 引擎时)。\n 3. **HBM3 高带宽内存**:H100 采用了更先进的 HBM3 内存,最高提供 80GB 容量和超过 3TB/s 的惊人带宽,极大缓解了大规模 AI 模型的"内存墙"问题。\n 4. **第四代 NVLink 与 PCIe 5.0**:NVLink 互联带宽提升至 900GB/s,是 PCIe 5.0 的 7 倍,使得成千上万张 H100 组成的集群能够高效协同工作,构建超大规模计算集群。\n 5. **原生 FP8 支持**:H100 是首批原生支持 FP8(8位浮点)数据格式的 GPU 之一,这不仅能将内存占用减半,还能大幅提高吞吐量,对 AI 推理极其有利。\n 6. **DPX 指令集**:专门用于加速动态规划算法,在基因组学测序、物流路线优化等科学计算领域,速度比 A100 提升高达 7 倍。\n\n 总的来说,H100 是目前大模型时代最重要的算力基础设施,凭借其针对 Transformer 的特化设计和极高的带宽,成为了训练和部署下一代 AI 的首选硬件。","tool_calls":null},"logprobs":null,"finish_reason":"stop","matched_stop":154827}],"usage":{"prompt_tokens":29,"total_tokens":1576,"completion_tokens":1547,"prompt_tokens_details":null,"reasoning_tokens":1119},"metadata":{"weight_version":"default"}}[root@h200-new llm]#
[root@h200-new llm]#