DeepSeek-V4-Pro 部署实战指南:H100/H200/B200/B300/GB200/GB300 全硬件配置详解

来源: recipes.vllm.ai 官方配置

DeepSeek-V4-Pro 是 DeepSeek V4 预览系列的旗舰模型,拥有 1.6T 总参数 / 49B 激活参数 的 MoE 架构,checkpoint 高达 960GB。本文基于 vLLM 官方 Recipes 配置,详细介绍六种主流 GPU 平台的部署方案。


一、模型概览

指标 参数
总参数量 1.6 Trillion (1600B)
激活参数量 49 Billion
上下文长度 最高 1,048,576 tokens (1M)
精度格式 FP4 + FP8 混合精度
Checkpoint ~960 GB
vLLM 版本 ≥ 0.20.1

二、Docker 镜像选择

镜像 CUDA 版本 适用平台
vllm/vllm-openai:deepseekv4-cu129 CUDA 12.9 H100、H200、B200
vllm/vllm-openai:deepseekv4-cu130 CUDA 13 GB200、B300、GB300

三、H200 部署(单节点 TP8+EP)

硬件 : 1 台 × 8× H200 (141GB × 8 = 1128GB)

bash 复制代码
docker run --gpus all \
  --privileged --ipc=host -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
  vllm/vllm-openai:deepseekv4-cu129 deepseek-ai/DeepSeek-V4-Pro \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --block-size 256 \
  --tensor-parallel-size 8 \
  --enable-expert-parallel \
  --max-model-len 800000 \
  --gpu-memory-utilization 0.95 \
  --compilation-config '{"mode": 0, "cudagraph_mode": "FULL_DECODE_ONLY"}'

四、B200 部署(单节点 TP8+EP)

硬件 : 1 台 × 8× B200 (180GB × 8 = 1440GB)

bash 复制代码
docker run --gpus all \
  --privileged --ipc=host -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
  vllm/vllm-openai:deepseekv4-cu130 deepseek-ai/DeepSeek-V4-Pro \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --block-size 256 \
  --tensor-parallel-size 8 \
  --enable-expert-parallel \
  --compilation-config '{"mode": 0, "cudagraph_mode": "FULL_DECODE_ONLY"}' \
  --attention_config.use_fp4_indexer_cache=True

五、GB200 NVL4 部署(多节点 DEP)

硬件 : 2 trays × 4× GB200 = 8 GPU
注意 : 单 tray 768GB < 960GB,必须 2 trays

部署前准备

bash 复制代码
export HEAD_IP="192.168.1.100"  # 替换为实际 Tray 0 的 IP

Tray 0 (Head)

bash 复制代码
docker run --gpus all \
  --privileged --ipc=host -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
  vllm/vllm-openai:deepseekv4-cu130 deepseek-ai/DeepSeek-V4-Pro \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --block-size 256 \
  --enable-expert-parallel \
  --data-parallel-hybrid-lb \
  --data-parallel-size 8 \
  --data-parallel-size-local 4 \
  --data-parallel-address '$HEAD_IP' \
  --compilation-config '{"cudagraph_mode":"FULL_AND_PIECEWISE", "custom_ops":["all"]}' \
  --attention_config.use_fp4_indexer_cache=True

Tray 1 (Worker)

bash 复制代码
docker run --gpus all \
  --privileged --ipc=host -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
  vllm/vllm-openai:deepseekv4-cu130 deepseek-ai/DeepSeek-V4-Pro \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --block-size 256 \
  --enable-expert-parallel \
  --data-parallel-hybrid-lb \
  --data-parallel-size 8 \
  --data-parallel-size-local 4 \
  --data-parallel-address '$HEAD_IP' \
  --data-parallel-start-rank 4 \
  --compilation-config '{"cudagraph_mode":"FULL_AND_PIECEWISE", "custom_ops":["all"]}' \
  --attention_config.use_fp4_indexer_cache=True

六、B300 部署(单节点 TP8+EP)

硬件 : 1 台 × 8× B300 (268GB × 8 = 2144GB )
注意 : 单节点显存最充裕,无需多节点

bash 复制代码
docker run --gpus all \
  --privileged --ipc=host -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
  vllm/vllm-openai:deepseekv4-cu130 deepseek-ai/DeepSeek-V4-Pro \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --block-size 256 \
  --tensor-parallel-size 8 \
  --enable-expert-parallel \
  --compilation-config '{"mode": 0, "cudagraph_mode": "FULL_DECODE_ONLY"}' \
  --attention_config.use_fp4_indexer_cache=True

七、GB300 NVL4 部署(多节点 DEP)

硬件 : 2 trays × 4× GB300 = 8 GPU

Tray 0 (Head)

bash 复制代码
docker run --gpus all \
  --privileged --ipc=host -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
  vllm/vllm-openai:deepseekv4-cu130 deepseek-ai/DeepSeek-V4-Pro \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --block-size 256 \
  --enable-expert-parallel \
  --data-parallel-hybrid-lb \
  --data-parallel-size 8 \
  --data-parallel-size-local 4 \
  --data-parallel-address '$HEAD_IP' \
  --compilation-config '{"cudagraph_mode":"FULL_AND_PIECEWISE", "custom_ops":["all"]}' \
  --attention_config.use_fp4_indexer_cache=True

Tray 1 (Worker)

bash 复制代码
docker run --gpus all \
  --privileged --ipc=host -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
  vllm/vllm-openai:deepseekv4-cu130 deepseek-ai/DeepSeek-V4-Pro \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --block-size 256 \
  --enable-expert-parallel \
  --data-parallel-hybrid-lb \
  --data-parallel-size 8 \
  --data-parallel-size-local 4 \
  --data-parallel-address '$HEAD_IP' \
  --data-parallel-start-rank 4 \
  --compilation-config '{"cudagraph_mode":"FULL_AND_PIECEWISE", "custom_ops":["all"]}' \
  --attention_config.use_fp4_indexer_cache=True

八、H100 部署(多节点 DEP)

硬件 : 2 台 × 8× H100 = 16 GPU
注意 : 单节点 640GB < 960GB,必须多节点

部署前准备(两台机器都执行)

bash 复制代码
# 1. 设置 Head 节点 IP(Node 0 的 IP 地址)
export HEAD_IP="192.168.1.100"  # 替换为实际 Node 0 的 IP

# 2. 拉取 Docker 镜像
docker pull vllm/vllm-openai:deepseekv4-cu129

# 3. 准备模型目录
mkdir -p ~/.cache/huggingface

# 4. NCCL 网络环境变量
export NCCL_DEBUG=INFO
export NCCL_IB_DISABLE=0
export NCCL_SOCKET_IFNAME=eth0  # 替换为实际 RDMA 网卡名

Node 0(Master / Head 节点)

bash 复制代码
docker run --gpus all \
  --privileged --ipc=host -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
  vllm/vllm-openai:deepseekv4-cu129 deepseek-ai/DeepSeek-V4-Pro \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --block-size 256 \
  --enable-expert-parallel \
  --data-parallel-hybrid-lb \
  --data-parallel-size 16 \
  --data-parallel-size-local 8 \
  --data-parallel-address '$HEAD_IP' \
  --max-model-len 800000 \
  --gpu-memory-utilization 0.95 \
  --max-num-seqs 512 \
  --max-num-batched-tokens 512 \
  --no-enable-flashinfer-autotune \
  --compilation-config '{"mode": 0, "cudagraph_mode": "FULL_DECODE_ONLY"}'

Node 1(Worker 节点)

bash 复制代码
docker run --gpus all \
  --privileged --ipc=host \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
  vllm/vllm-openai:deepseekv4-cu129 deepseek-ai/DeepSeek-V4-Pro \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --block-size 256 \
  --enable-expert-parallel \
  --data-parallel-hybrid-lb \
  --data-parallel-size 16 \
  --data-parallel-size-local 8 \
  --data-parallel-address '$HEAD_IP' \
  --data-parallel-start-rank 8 \
  --max-model-len 800000 \
  --gpu-memory-utilization 0.95 \
  --max-num-seqs 512 \
  --max-num-batched-tokens 512 \
  --no-enable-flashinfer-autotune \
  --compilation-config '{"mode": 0, "cudagraph_mode": "FULL_DECODE_ONLY"}'

H100 启动顺序

bash 复制代码
# Step 1: 先在 Node 0 (Master) 上启动
ssh node0
cd /path/to/scripts
./start_master.sh

# Step 2: 等待 Node 0 启动完成(约需 5-10 分钟加载 960GB 模型)

# Step 3: 在 Node 1 (Worker) 上启动
ssh node1
cd /path/to/scripts
./start_worker.sh

# Step 4: 验证服务
ssh node0
curl http://localhost:8000/v1/models

九、各平台配置对比

平台 台数 GPU/台 总 GPU 总显存 策略 Docker
H200 1 8 8 1128 GB TP8+EP cu129
B200 1 8 8 1440 GB TP8+EP cu130
GB200 2 4 8 1536 GB Multi-Node DEP cu130
B300 1 8 8 2144 GB TP8+EP cu130
GB300 2 4 8 2304 GB Multi-Node DEP cu130
H100 2 8 16 1280 GB Multi-Node DEP cu129

关键参数说明

参数 H200/B200/B300 GB200/GB300 H100
--tensor-parallel-size 8 - -
--data-parallel-size - 8 16
--data-parallel-size-local - 4 8
--data-parallel-start-rank - 4 8
--max-model-len 800K (H200) / 不限 不限 800K
--no-enable-flashinfer-autotune ✅ (H200) -

十、参考文献

相关推荐
栀栀栀栀栀栀2 小时前
基于深度学习的自然语言处理和语音识别 阅读笔记
人工智能·笔记·深度学习·自然语言处理·语音识别
张忠琳2 小时前
【vllm】(六)vLLM v1 Sample — 模块超深度分析之一
ai·架构·vllm
AI让世界更懂你4 小时前
当执行被替代之后:一次尚未完成的能力重构
人工智能·自然语言处理·重构
AI-Frontiers4 小时前
transformer进阶之路:#1 整体概述
transformer
财经资讯数据_灵砚智能4 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月26日
大数据·人工智能·python·信息可视化·自然语言处理
财经资讯数据_灵砚智能4 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年4月25日
大数据·人工智能·python·信息可视化·自然语言处理
蛐蛐蛐14 小时前
在昇腾Atlas 300I Duo+openEuler上部署vLLM并进行推理的流程(一)
vllm
AI木马人21 小时前
1.【AI系统架构设计】如何设计一个高效、安全的人性化AI工具系统?(从0到1完整方案)
人工智能·深度学习·神经网络·计算机视觉·自然语言处理
Gh0st_Lx1 天前
【6】持续学习方法概述:在数据集 B 上变强了,在数据集 A 上却暴跌?
人工智能·语言模型·transformer