H200 安装驱动并使用sglang启动模型

机器信息

系统:rocklinux 9.4

架构:x86

前置操作:关闭防火墙和selinux

一、安装kernel-devel、kernel-headers

如果没有互联网环境,可以使用iso文件搭建本地镜像仓库,这两个包的版本一定要和当前系统的内核版本一致

bash 复制代码
dnf install -y kernel-devel-$(uname -r) kernel-headers-$(uname -r)

二、安装dkms

复制代码
dnf install -y dkms

三、安装驱动

rocklinux兼容rhel

可以使用rhel的rpm包:https://www.nvidia.cn/drivers/details/266455/

下载后安装

复制代码
rpm -ivh nvidia-driver-local-repo-rhel9-590.48.01-1.0-1.x86_64.rpm

安装驱动

nvidia-driver可能会被过滤,导致dnf list | grep nvidia-driver,不显示驱动包,可以直接手动rpm安装

bash 复制代码
cd /var/nvidia-driver-local-repo-rhel9-590.48.01

rpm -ivh nvidia-kmod-common-590.48.01-1.el9.noarch.rpm \
         kmod-nvidia-latest-dkms-590.48.01-1.el9.x86_64.rpm \
         nvidia-driver-590.48.01-1.el9.x86_64.rpm \
         nvidia-driver-libs-590.48.01-1.el9.x86_64.rpm \
         nvidia-driver-cuda-590.48.01-1.el9.x86_64.rpm \
         nvidia-driver-cuda-libs-590.48.01-1.el9.x86_64.rpm \
         libnvidia-ml-590.48.01-1.el9.x86_64.rpm \
         libnvidia-cfg-590.48.01-1.el9.x86_64.rpm \
         nvidia-modprobe-590.48.01-1.el9.x86_64.rpm \
         nvidia-persistenced-590.48.01-1.el9.x86_64.rpm \
         nvidia-fabricmanager-590.48.01-1.el9.x86_64.rpm \
         --nodeps --force

检查驱动是否编译完成

bash 复制代码
dkms install nvidia/590.48.01

执行结果

bash 复制代码
[root@localhost nvidia-driver-local-repo-rhel9-590.48.01]# dkms install nvidia/590.48.01    
Module nvidia/590.48.01 already installed on kernel 5.14.0-427.13.1.el9_4.x86_64 (x86_64), skip. You may override by specifying --force.
[root@localhost nvidia-driver-local-repo-rhel9-590.48.01]#

加载模块

复制代码
modprobe nvidia
modprobe nvidia-uvm

启动SXM 专属服务用于显卡间通信

bash 复制代码
systemctl enable --now nvidia-persistenced
systemctl enable --now nvidia-fabricmanager

查看显卡状态

复制代码
nvidia-smi

执行结果,正常显示显卡信息则成功安装了驱动

bash 复制代码
[root@h200-new ~]# nvidia-smi 
Thu Apr 16 14:02:07 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 590.48.01              Driver Version: 590.48.01      CUDA Version: 13.1     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA H200                    On  |   00000000:19:00.0 Off |                    0 |
| N/A   37C    P0             78W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA H200                    On  |   00000000:3B:00.0 Off |                    0 |
| N/A   32C    P0             80W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA H200                    On  |   00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0             76W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA H200                    On  |   00000000:5D:00.0 Off |                    0 |
| N/A   35C    P0             78W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA H200                    On  |   00000000:9B:00.0 Off |                    0 |
| N/A   37C    P0             77W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA H200                    On  |   00000000:BB:00.0 Off |                    0 |
| N/A   33C    P0             79W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA H200                    On  |   00000000:CB:00.0 Off |                    0 |
| N/A   36C    P0             78W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA H200                    On  |   00000000:DB:00.0 Off |                    0 |
| N/A   32C    P0             77W /  700W |       0MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+
[root@h200-new ~]#

四、安装docker和libnvidia-container

docker二进制包下载:https://download.docker.com/linux/static/stable/x86_64/

解压压缩包,将二进制文件移动至/usr/local/bin/下

新建service文件内容如下

/usr/lib/systemd/system/docker.service

复制代码
[Unit]
Description=Docker Application Container Engine
Documentation=http://docs.docker.io

[Service]
Environment="PATH=/usr/local/bin:/bin:/sbin:/usr/bin:/usr/sbin"
ExecStart=/usr/local/bin/dockerd --log-level=error $DOCKER_NETWORK_OPTIONS \
--data-root=/data/docker/data
ExecReload=/bin/kill -s HUP $MAINPID
Restart=on-failure
RestartSec=5
LimitNOFILE=infinity
LimitNPROC=infinity
LimitCORE=infinity
Delegate=yes
KillMode=process

[Install]
WantedBy=multi-user.target

启动docker

复制代码
systemctl daemon-reload
systemctl enable docker --now

安装libnvidia-container

下载地址:https://github.com/NVIDIA/libnvidia-container/tree/gh-pages/stable

安装

bash 复制代码
[root@h200-new containerd-tools]# ls
libnvidia-container-tools-1.17.4-1.x86_64.rpm  nvidia-container-toolkit-1.17.4-1.x86_64.rpm
libnvidia-container1-1.17.4-1.x86_64.rpm       nvidia-container-toolkit-base-1.17.4-1.x86_64.rpm
[root@h200-new containerd-tools]# rpm -ivh *rpm
warning: libnvidia-container-tools-1.17.4-1.x86_64.rpm: Header V4 RSA/SHA512 Signature, key ID f796ecb0: NOKEY
Verifying...                          ################################# [100%]
Preparing...                          ################################# [100%]
Updating / installing...
   1:nvidia-container-toolkit-base-1.1################################# [ 25%]
   2:libnvidia-container1-1.17.4-1    ################################# [ 50%]
   3:libnvidia-container-tools-1.17.4-################################# [ 75%]
   4:nvidia-container-toolkit-1.17.4-1################################# [100%]
[root@h200-new containerd-tools]#

配置生效

复制代码
nvidia-ctk runtime configure --runtime=docker
systemctl restart docker

五、使用sglang 启动模型

模型下载至:/data/llm/glm5.1-fp8

sglang镜像版本:lmsysorg/sglang:v0.5.10

启动sglang

bash 复制代码
docker run -d \
--name sglang-glm5 \
--gpus all \
--ipc=host \
--ulimit memlock=-1 \
--ulimit stack=67108864 \
-p 30000:30000 \
-e SGLANG_ENABLE_SPEC_V2=1 \
-e CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
-e TORCHINDUCTOR_CACHE_DIR=/data/glmcache5.1 \
-v /data/llm/:/data/models \
--shm-size=32g \
--restart=always \
lmsysorg/sglang:v0.5.10 \
sglang serve \
--model-path /data/models/glm5.1-fp8 \
--served-model-name glm-5.1-fp8 \
--api-key xxxxxx \
--host 0.0.0.0 \
--tp 8 \
--reasoning-parser glm45 \
--tool-call-parser glm47 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.9 \
--context-length=184320 \
--max-running-requests=10 \
--max-prefill-tokens=8192

使用docker logs -f sglang-glm5 查看模型加载进度,等待模型加载完成

查看显卡使用情况

bash 复制代码
[root@h200-new data]# nvidia-smi 
Thu Apr 16 18:00:27 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 590.48.01              Driver Version: 590.48.01      CUDA Version: 13.1     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA H200                    On  |   00000000:19:00.0 Off |                    0 |
| N/A   55C    P0            136W /  700W |  141572MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA H200                    On  |   00000000:3B:00.0 Off |                    0 |
| N/A   42C    P0            126W /  700W |  141622MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA H200                    On  |   00000000:4C:00.0 Off |                    0 |
| N/A   40C    P0            122W /  700W |  141622MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA H200                    On  |   00000000:5D:00.0 Off |                    0 |
| N/A   54C    P0            135W /  700W |  141622MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA H200                    On  |   00000000:9B:00.0 Off |                    0 |
| N/A   54C    P0            132W /  700W |  141622MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA H200                    On  |   00000000:BB:00.0 Off |                    0 |
| N/A   42C    P0            123W /  700W |  141622MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA H200                    On  |   00000000:CB:00.0 Off |                    0 |
| N/A   55C    P0            135W /  700W |  141624MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA H200                    On  |   00000000:DB:00.0 Off |                    0 |
| N/A   41C    P0            123W /  700W |  140658MiB / 143771MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A          161448      C   sglang::scheduler_TP0                 14156... |
|    1   N/A  N/A          161449      C   sglang::scheduler_TP1                 14161... |
|    2   N/A  N/A          161450      C   sglang::scheduler_TP2                 14161... |
|    3   N/A  N/A          161451      C   sglang::scheduler_TP3                 14161... |
|    4   N/A  N/A          161452      C   sglang::scheduler_TP4                 14161... |
|    5   N/A  N/A          161453      C   sglang::scheduler_TP5                 14161... |
|    6   N/A  N/A          161454      C   sglang::scheduler_TP6                 14161... |
|    7   N/A  N/A          161455      C   sglang::scheduler_TP7                 14064... |
+-----------------------------------------------------------------------------------------+
[root@h200-new data]# 

测试

bash 复制代码
[root@h200-new llm]# curl http://localhost:30000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer xxxxxxx" \
  -d '{
    "model": "glm-5.1-fp8",
    "messages": [
      {"role": "system", "content": "你是一个人工智能助手。"},
      {"role": "user", "content": "你好,请确认你的模型版本,并简单介绍下 H100 GPU 的优势。"}
    ],
    "temperature": 0.7
  }'
{"id":"3dd2d8cbf57546bd926b30e35559dd8d","object":"chat.completion","created":1776325869,"model":"glm-5.1-fp8","choices":[{"index":0,"message":{"role":"assistant","content":"你好!我是一个由 Z.ai 开发的人工智能助手(基于 GLM 大语言模型)。\n\n关于 NVIDIA H100 GPU,它是基于 Hopper 架构的旗舰级数据中心 GPU,专为加速人工智能和高性能计算而设计。它的主要优势包括:\n\n1. **Transformer 引擎**:这是 H100 最大的亮点之一。它专门针对当前大语言模型(LLM)的基础------Transformer 架构进行了优化,能够动态分配 FP8 和 FP16 精度,在保持模型精度的同时,将大模型的训练和推理速度提升至前所未有的水平。\n2. **极高的性能飞跃**:相比上一代 A100,H100 在 AI 训练上最高可提供 9 倍的提升,在 AI 推理上最高可提供 30 倍的提升(特别是在结合 FP8 和 Transformer 引擎时)。\n3. **HBM3 高带宽内存**:H100 采用了更先进的 HBM3 内存,最高提供 80GB 容量和超过 3TB/s 的惊人带宽,极大缓解了大规模 AI 模型的"内存墙"问题。\n4. **第四代 NVLink 与 PCIe 5.0**:NVLink 互联带宽提升至 900GB/s,是 PCIe 5.0 的 7 倍,使得成千上万张 H100 组成的集群能够高效协同工作,构建超大规模计算集群。\n5. **原生 FP8 支持**:H100 是首批原生支持 FP8(8位浮点)数据格式的 GPU 之一,这不仅能将内存占用减半,还能大幅提高吞吐量,对 AI 推理极其有利。\n6. **DPX 指令集**:专门用于加速动态规划算法,在基因组学测序、物流路线优化等科学计算领域,速度比 A100 提升高达 7 倍。\n\n总的来说,H100 是目前大模型时代最重要的算力基础设施,凭借其针对 Transformer 的特化设计和极高的带宽,成为了训练和部署下一代 AI 的首选硬件。","reasoning_content":"1.  **分析请求:**\n    *   任务 1:确认我的模型版本。\n    *   任务 2:简单介绍 H100 GPU 的优势。\n    *   语言:中文。\n\n2.  **处理任务 1:确认模型版本:**\n    *   *自我认知:* 我是一个人工智能助手。我的具体底层模型版本通常不作为硬编码字符串公开,但我是由 Z.ai 开发的大语言模型(GLM 系列)。我应该清楚地说明我是一个人工智能助手,并提及我的开发者/模型系列(GLM),而不必捏造特定的版本号(除非我绝对确定,但通常"由 Z.ai 开发的 GLM 大语言模型"是最准确和安全的回答)。\n    *   *起草:* 你好!我是一个由 Z.ai 训练的大语言模型(基于 GLM 架构)。\n\n3.  **处理任务 2:介绍 H100 GPU 的优势:**\n    *   *主题:* NVIDIA H100 Hopper GPU。\n    *   *需要涵盖的关键优势:*\n        *   架构:Hopper 架构(继 Ampere/A100 之后)。\n        *   性能:AI 训练和推理的巨大飞跃。Transformer 引擎(对大语言模型至关重要)。\n        *   内存/带宽:HBM3 内存(与 A100 的 HBM2e 相比,带宽大幅提升)。\n        *   互连:NVLink 4.0(比第 3 代更快)、PCIe Gen 5。\n        *   安全/可靠性:机密计算、原生 FP8 支持。\n        *   DPX 指令集:用于动态规划。\n    *   *构建介绍结构:* 使用项目符号以提高可读性。保持简洁但全面。\n    *   *起草要点:*\n        1.  **Hopper 架构与 Transformer 引擎**:专门针对大语言模型(LLM)优化,自动分配 FP8/FP16 精度,大幅提升推理和训练速度。\n        2.  **极致的性能提升**:相比上一代 A100,AI 训练速度提升数倍,推理速度最高提升 30 倍。\n        3.  **更快的 HBM3 内存**:提供更高的内存带宽(最高可达 3TB/s),解决大规模模型的内存瓶颈。\n        4.  **第四代 NVLink 与 PCIe 5.0**:多卡互联带宽翻倍,支持构建更大规模的计算集群。\n        5.  **FP8 数据格式支持**:在保持精度的同时,大幅减少内存占用和计算时间。\n        6.  **DPX 指令集**:加速动态规划算法,适用于基因组学、物流优化等领域。\n\n4.  **审查与润色:**\n    *   将两个回答流畅地结合起来。\n    *   确保语气乐于助人且专业。\n    *   *起草时的自我纠正:* 确保不要声称自己是 GPT-4 或 Claude 3,因为那是不正确的。坚持 Z.ai/GLM 的身份。\n\n5.  **最终输出生成(中文):**\n    你好!我是一个由 Z.ai 开发的人工智能助手(基于 GLM 大语言模型)。\n\n    关于 NVIDIA H100 GPU,它是基于 Hopper 架构的旗舰级数据中心 GPU,专为加速 AI 和高性能计算(HPC)而设计。它的主要优势包括:\n\n    1. **Transformer 引擎**:这是 H100 最大的亮点之一。它专门针对当前大语言模型(LLM)的基础------Transformer 架构进行了优化,能够动态分配 FP8 和 FP16 精度,在保持模型精度的同时,将大模型的训练和推理速度提升至前所未有的水平。\n    2. **极高的性能飞跃**:相比上一代 A100,H100 在 AI 训练上最高可提供 9 倍的提升,在 AI 推理上最高可提供 30 倍的提升(特别是在结合 FP8 和 Transformer 引擎时)。\n    3. **HBM3 高带宽内存**:H100 采用了更先进的 HBM3 内存,最高提供 80GB 容量和超过 3TB/s 的惊人带宽,极大缓解了大规模 AI 模型的"内存墙"问题。\n    4. **第四代 NVLink 与 PCIe 5.0**:NVLink 互联带宽提升至 900GB/s,是 PCIe 5.0 的 7 倍,使得成千上万张 H100 组成的集群能够高效协同工作,构建超大规模计算集群。\n    5. **原生 FP8 支持**:H100 是首批原生支持 FP8(8位浮点)数据格式的 GPU 之一,这不仅能将内存占用减半,还能大幅提高吞吐量,对 AI 推理极其有利。\n    6. **DPX 指令集**:专门用于加速动态规划算法,在基因组学测序、物流路线优化等科学计算领域,速度比 A100 提升高达 7 倍。\n\n    总的来说,H100 是目前大模型时代最重要的算力基础设施,凭借其针对 Transformer 的特化设计和极高的带宽,成为了训练和部署下一代 AI 的首选硬件。","tool_calls":null},"logprobs":null,"finish_reason":"stop","matched_stop":154827}],"usage":{"prompt_tokens":29,"total_tokens":1576,"completion_tokens":1547,"prompt_tokens_details":null,"reasoning_tokens":1119},"metadata":{"weight_version":"default"}}[root@h200-new llm]# 
[root@h200-new llm]# 
相关推荐
jasonblog3 小时前
对小龙虾openclaw的关注、学习、使用和变化观察
人工智能·学习·ai
慕峯3 小时前
反蒸馏 Skill 安装使用教程
ai
垚森4 小时前
我用AI写了一个颜值拉满的桌面媒体播放器,全程没动一行代码,这就是AI编程新范式
ai·electron·react·opencode
Java小白笔记4 小时前
什么是 Token?2026 年主流大模型计费规则、价格与性能全面对比
人工智能·ai·ai编程·ai写作
Java小白笔记5 小时前
Claude-Code 完全指南
人工智能·ai·全文检索·ai编程·ai写作
岳小哥AI6 小时前
5. WorkBuddy: 小龙虾的灵魂三件套,让你的小龙虾不只是工具
ai·openclaw·workbuddy
lgcgkCQ7 小时前
Trae使用教程:从入门到精通
ai·ai编程·trae·ai ide
阿杰学AI7 小时前
AI核心知识123—大语言模型之 KV Cache
人工智能·ai·语言模型·自然语言处理·aigc·kv cache·键值缓存
萝卜小白7 小时前
算法实习day03-碎碎念
python·ai·实习