H200 安装驱动并使用sglang启动模型

机器信息

系统：rocklinux 9.4

架构：x86

前置操作：关闭防火墙和selinux

一、安装kernel-devel、kernel-headers

如果没有互联网环境，可以使用iso文件搭建本地镜像仓库，这两个包的版本一定要和当前系统的内核版本一致

bash 复制代码

dnf install -y kernel-devel-$(uname -r) kernel-headers-$(uname -r)

二、安装dkms

复制代码

dnf install -y dkms

三、安装驱动

rocklinux兼容rhel

可以使用rhel的rpm包：https://www.nvidia.cn/drivers/details/266455/

下载后安装

复制代码

rpm -ivh nvidia-driver-local-repo-rhel9-590.48.01-1.0-1.x86_64.rpm

安装驱动

nvidia-driver可能会被过滤，导致dnf list | grep nvidia-driver,不显示驱动包，可以直接手动rpm安装

bash 复制代码

cd /var/nvidia-driver-local-repo-rhel9-590.48.01

rpm -ivh nvidia-kmod-common-590.48.01-1.el9.noarch.rpm \
         kmod-nvidia-latest-dkms-590.48.01-1.el9.x86_64.rpm \
         nvidia-driver-590.48.01-1.el9.x86_64.rpm \
         nvidia-driver-libs-590.48.01-1.el9.x86_64.rpm \
         nvidia-driver-cuda-590.48.01-1.el9.x86_64.rpm \
         nvidia-driver-cuda-libs-590.48.01-1.el9.x86_64.rpm \
         libnvidia-ml-590.48.01-1.el9.x86_64.rpm \
         libnvidia-cfg-590.48.01-1.el9.x86_64.rpm \
         nvidia-modprobe-590.48.01-1.el9.x86_64.rpm \
         nvidia-persistenced-590.48.01-1.el9.x86_64.rpm \
         nvidia-fabricmanager-590.48.01-1.el9.x86_64.rpm \
         --nodeps --force

检查驱动是否编译完成

bash 复制代码

dkms install nvidia/590.48.01

执行结果

bash 复制代码

[root@localhost nvidia-driver-local-repo-rhel9-590.48.01]# dkms install nvidia/590.48.01    
Module nvidia/590.48.01 already installed on kernel 5.14.0-427.13.1.el9_4.x86_64 (x86_64), skip. You may override by specifying --force.
[root@localhost nvidia-driver-local-repo-rhel9-590.48.01]#

加载模块

复制代码

modprobe nvidia
modprobe nvidia-uvm

启动SXM 专属服务用于显卡间通信

bash 复制代码

systemctl enable --now nvidia-persistenced
systemctl enable --now nvidia-fabricmanager

查看显卡状态

复制代码

nvidia-smi

执行结果，正常显示显卡信息则成功安装了驱动

bash 复制代码

[root@h200-new ~]# nvidia-smi 
Thu Apr 16 14:02:07 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 590.48.01              Driver Version: 590.48.01      CUDA Version: 13.1     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA H200                    On  |   00000000:19:00.0 Off |                    0 |
| N/A   37C    P0             78W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA H200                    On  |   00000000:3B:00.0 Off |                    0 |
| N/A   32C    P0             80W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA H200                    On  |   00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0             76W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA H200                    On  |   00000000:5D:00.0 Off |                    0 |
| N/A   35C    P0             78W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA H200                    On  |   00000000:9B:00.0 Off |                    0 |
| N/A   37C    P0             77W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA H200                    On  |   00000000:BB:00.0 Off |                    0 |
| N/A   33C    P0             79W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA H200                    On  |   00000000:CB:00.0 Off |                    0 |
| N/A   36C    P0             78W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA H200                    On  |   00000000:DB:00.0 Off |                    0 |
| N/A   32C    P0             77W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+
[root@h200-new ~]#

四、安装docker和libnvidia-container

docker二进制包下载：https://download.docker.com/linux/static/stable/x86_64/

解压压缩包，将二进制文件移动至/usr/local/bin/下

新建service文件内容如下

/usr/lib/systemd/system/docker.service

复制代码

[Unit]
Description=Docker Application Container Engine
Documentation=http://docs.docker.io

[Service]
Environment="PATH=/usr/local/bin:/bin:/sbin:/usr/bin:/usr/sbin"
ExecStart=/usr/local/bin/dockerd --log-level=error $DOCKER_NETWORK_OPTIONS \
--data-root=/data/docker/data
ExecReload=/bin/kill -s HUP $MAINPID
Restart=on-failure
RestartSec=5
LimitNOFILE=infinity
LimitNPROC=infinity
LimitCORE=infinity
Delegate=yes
KillMode=process

[Install]
WantedBy=multi-user.target

启动docker

复制代码

systemctl daemon-reload
systemctl enable docker --now

安装libnvidia-container

下载地址：https://github.com/NVIDIA/libnvidia-container/tree/gh-pages/stable

安装

bash 复制代码

[root@h200-new containerd-tools]# ls
libnvidia-container-tools-1.17.4-1.x86_64.rpm  nvidia-container-toolkit-1.17.4-1.x86_64.rpm
libnvidia-container1-1.17.4-1.x86_64.rpm       nvidia-container-toolkit-base-1.17.4-1.x86_64.rpm
[root@h200-new containerd-tools]# rpm -ivh *rpm
warning: libnvidia-container-tools-1.17.4-1.x86_64.rpm: Header V4 RSA/SHA512 Signature, key ID f796ecb0: NOKEY
Verifying...                          ################################# [100%]
Preparing...                          ################################# [100%]
Updating / installing...
   1:nvidia-container-toolkit-base-1.1################################# [ 25%]
   2:libnvidia-container1-1.17.4-1    ################################# [ 50%]
   3:libnvidia-container-tools-1.17.4-################################# [ 75%]
   4:nvidia-container-toolkit-1.17.4-1################################# [100%]
[root@h200-new containerd-tools]#

配置生效

复制代码

nvidia-ctk runtime configure --runtime=docker
systemctl restart docker

五、使用sglang 启动模型

模型下载至：/data/llm/glm5.1-fp8

sglang镜像版本：lmsysorg/sglang:v0.5.10

启动sglang

bash 复制代码

docker run -d \
--name sglang-glm5 \
--gpus all \
--ipc=host \
--ulimit memlock=-1 \
--ulimit stack=67108864 \
-p 30000:30000 \
-e SGLANG_ENABLE_SPEC_V2=1 \
-e CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
-e TORCHINDUCTOR_CACHE_DIR=/data/glmcache5.1 \
-v /data/llm/:/data/models \
--shm-size=32g \
--restart=always \
lmsysorg/sglang:v0.5.10 \
sglang serve \
--model-path /data/models/glm5.1-fp8 \
--served-model-name glm-5.1-fp8 \
--api-key xxxxxx \
--host 0.0.0.0 \
--tp 8 \
--reasoning-parser glm45 \
--tool-call-parser glm47 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.9 \
--context-length=184320 \
--max-running-requests=10 \
--max-prefill-tokens=8192

使用docker logs -f sglang-glm5 查看模型加载进度，等待模型加载完成

查看显卡使用情况

bash 复制代码

[root@h200-new data]# nvidia-smi 
Thu Apr 16 18:00:27 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 590.48.01              Driver Version: 590.48.01      CUDA Version: 13.1     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA H200                    On  |   00000000:19:00.0 Off |                    0 |
| N/A   55C    P0            136W /  700W |  141572MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA H200                    On  |   00000000:3B:00.0 Off |                    0 |
| N/A   42C    P0            126W /  700W |  141622MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA H200                    On  |   00000000:4C:00.0 Off |                    0 |
| N/A   40C    P0            122W /  700W |  141622MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA H200                    On  |   00000000:5D:00.0 Off |                    0 |
| N/A   54C    P0            135W /  700W |  141622MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA H200                    On  |   00000000:9B:00.0 Off |                    0 |
| N/A   54C    P0            132W /  700W |  141622MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA H200                    On  |   00000000:BB:00.0 Off |                    0 |
| N/A   42C    P0            123W /  700W |  141622MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA H200                    On  |   00000000:CB:00.0 Off |                    0 |
| N/A   55C    P0            135W /  700W |  141624MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA H200                    On  |   00000000:DB:00.0 Off |                    0 |
| N/A   41C    P0            123W /  700W |  140658MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A          161448      C   sglang::scheduler_TP0                 14156... |
|    1   N/A  N/A          161449      C   sglang::scheduler_TP1                 14161... |
|    2   N/A  N/A          161450      C   sglang::scheduler_TP2                 14161... |
|    3   N/A  N/A          161451      C   sglang::scheduler_TP3                 14161... |
|    4   N/A  N/A          161452      C   sglang::scheduler_TP4                 14161... |
|    5   N/A  N/A          161453      C   sglang::scheduler_TP5                 14161... |
|    6   N/A  N/A          161454      C   sglang::scheduler_TP6                 14161... |
|    7   N/A  N/A          161455      C   sglang::scheduler_TP7                 14064... |
+-----------------------------------------------------------------------------------------+
[root@h200-new data]#

测试

bash 复制代码

[root@h200-new llm]# curl http://localhost:30000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer xxxxxxx" \
  -d '{
    "model": "glm-5.1-fp8",
    "messages": [
      {"role": "system", "content": "你是一个人工智能助手。"},
      {"role": "user", "content": "你好，请确认你的模型版本，并简单介绍下 H100 GPU 的优势。"}
    ],
    "temperature": 0.7
  }'
{"id":"3dd2d8cbf57546bd926b30e35559dd8d","object":"chat.completion","created":1776325869,"model":"glm-5.1-fp8","choices":[{"index":0,"message":{"role":"assistant","content":"你好！我是一个由 Z.ai 开发的人工智能助手（基于 GLM 大语言模型）。\n\n关于 NVIDIA H100 GPU，它是基于 Hopper 架构的旗舰级数据中心 GPU，专为加速人工智能和高性能计算而设计。它的主要优势包括：\n\n1. **Transformer 引擎**：这是 H100 最大的亮点之一。它专门针对当前大语言模型（LLM）的基础------Transformer 架构进行了优化，能够动态分配 FP8 和 FP16 精度，在保持模型精度的同时，将大模型的训练和推理速度提升至前所未有的水平。\n2. **极高的性能飞跃**：相比上一代 A100，H100 在 AI 训练上最高可提供 9 倍的提升，在 AI 推理上最高可提供 30 倍的提升（特别是在结合 FP8 和 Transformer 引擎时）。\n3. **HBM3 高带宽内存**：H100 采用了更先进的 HBM3 内存，最高提供 80GB 容量和超过 3TB/s 的惊人带宽，极大缓解了大规模 AI 模型的"内存墙"问题。\n4. **第四代 NVLink 与 PCIe 5.0**：NVLink 互联带宽提升至 900GB/s，是 PCIe 5.0 的 7 倍，使得成千上万张 H100 组成的集群能够高效协同工作，构建超大规模计算集群。\n5. **原生 FP8 支持**：H100 是首批原生支持 FP8（8位浮点）数据格式的 GPU 之一，这不仅能将内存占用减半，还能大幅提高吞吐量，对 AI 推理极其有利。\n6. **DPX 指令集**：专门用于加速动态规划算法，在基因组学测序、物流路线优化等科学计算领域，速度比 A100 提升高达 7 倍。\n\n总的来说，H100 是目前大模型时代最重要的算力基础设施，凭借其针对 Transformer 的特化设计和极高的带宽，成为了训练和部署下一代 AI 的首选硬件。","reasoning_content":"1.  **分析请求：**\n    *   任务 1：确认我的模型版本。\n    *   任务 2：简单介绍 H100 GPU 的优势。\n    *   语言：中文。\n\n2.  **处理任务 1：确认模型版本：**\n    *   *自我认知：* 我是一个人工智能助手。我的具体底层模型版本通常不作为硬编码字符串公开，但我是由 Z.ai 开发的大语言模型（GLM 系列）。我应该清楚地说明我是一个人工智能助手，并提及我的开发者/模型系列（GLM），而不必捏造特定的版本号（除非我绝对确定，但通常"由 Z.ai 开发的 GLM 大语言模型"是最准确和安全的回答）。\n    *   *起草：* 你好！我是一个由 Z.ai 训练的大语言模型（基于 GLM 架构）。\n\n3.  **处理任务 2：介绍 H100 GPU 的优势：**\n    *   *主题：* NVIDIA H100 Hopper GPU。\n    *   *需要涵盖的关键优势：*\n        *   架构：Hopper 架构（继 Ampere/A100 之后）。\n        *   性能：AI 训练和推理的巨大飞跃。Transformer 引擎（对大语言模型至关重要）。\n        *   内存/带宽：HBM3 内存（与 A100 的 HBM2e 相比，带宽大幅提升）。\n        *   互连：NVLink 4.0（比第 3 代更快）、PCIe Gen 5。\n        *   安全/可靠性：机密计算、原生 FP8 支持。\n        *   DPX 指令集：用于动态规划。\n    *   *构建介绍结构：* 使用项目符号以提高可读性。保持简洁但全面。\n    *   *起草要点：*\n        1.  **Hopper 架构与 Transformer 引擎**：专门针对大语言模型（LLM）优化，自动分配 FP8/FP16 精度，大幅提升推理和训练速度。\n        2.  **极致的性能提升**：相比上一代 A100，AI 训练速度提升数倍，推理速度最高提升 30 倍。\n        3.  **更快的 HBM3 内存**：提供更高的内存带宽（最高可达 3TB/s），解决大规模模型的内存瓶颈。\n        4.  **第四代 NVLink 与 PCIe 5.0**：多卡互联带宽翻倍，支持构建更大规模的计算集群。\n        5.  **FP8 数据格式支持**：在保持精度的同时，大幅减少内存占用和计算时间。\n        6.  **DPX 指令集**：加速动态规划算法，适用于基因组学、物流优化等领域。\n\n4.  **审查与润色：**\n    *   将两个回答流畅地结合起来。\n    *   确保语气乐于助人且专业。\n    *   *起草时的自我纠正：* 确保不要声称自己是 GPT-4 或 Claude 3，因为那是不正确的。坚持 Z.ai/GLM 的身份。\n\n5.  **最终输出生成（中文）：**\n    你好！我是一个由 Z.ai 开发的人工智能助手（基于 GLM 大语言模型）。\n\n    关于 NVIDIA H100 GPU，它是基于 Hopper 架构的旗舰级数据中心 GPU，专为加速 AI 和高性能计算（HPC）而设计。它的主要优势包括：\n\n    1. **Transformer 引擎**：这是 H100 最大的亮点之一。它专门针对当前大语言模型（LLM）的基础------Transformer 架构进行了优化，能够动态分配 FP8 和 FP16 精度，在保持模型精度的同时，将大模型的训练和推理速度提升至前所未有的水平。\n    2. **极高的性能飞跃**：相比上一代 A100，H100 在 AI 训练上最高可提供 9 倍的提升，在 AI 推理上最高可提供 30 倍的提升（特别是在结合 FP8 和 Transformer 引擎时）。\n    3. **HBM3 高带宽内存**：H100 采用了更先进的 HBM3 内存，最高提供 80GB 容量和超过 3TB/s 的惊人带宽，极大缓解了大规模 AI 模型的"内存墙"问题。\n    4. **第四代 NVLink 与 PCIe 5.0**：NVLink 互联带宽提升至 900GB/s，是 PCIe 5.0 的 7 倍，使得成千上万张 H100 组成的集群能够高效协同工作，构建超大规模计算集群。\n    5. **原生 FP8 支持**：H100 是首批原生支持 FP8（8位浮点）数据格式的 GPU 之一，这不仅能将内存占用减半，还能大幅提高吞吐量，对 AI 推理极其有利。\n    6. **DPX 指令集**：专门用于加速动态规划算法，在基因组学测序、物流路线优化等科学计算领域，速度比 A100 提升高达 7 倍。\n\n    总的来说，H100 是目前大模型时代最重要的算力基础设施，凭借其针对 Transformer 的特化设计和极高的带宽，成为了训练和部署下一代 AI 的首选硬件。","tool_calls":null},"logprobs":null,"finish_reason":"stop","matched_stop":154827}],"usage":{"prompt_tokens":29,"total_tokens":1576,"completion_tokens":1547,"prompt_tokens_details":null,"reasoning_tokens":1119},"metadata":{"weight_version":"default"}}[root@h200-new llm]# 
[root@h200-new llm]#