【保姆级教程】RTX 4090 24G 部署 DeepSeek-V4-Flash 全攻略（INT4 量化 + 128K 上下文）

前言

模型说明：DeepSeek-V4-Flash 官方原生支持 1M（104 万 token）上下文，本文通过参数限制为 128K 降低显存压力，无需修改模型权重。
硬件限制 ：RTX 4090 24G 仅支持 INT4 量化，FP8/FP16 显存不足，且 4090 无原生 FP8 硬件加速，INT4 是唯一可行方案。
版本要求：vLLM 版本必须 ≥ 0.6.6，低版本不支持 MoE 模型推理。
性能预期：单卡 4090 可跑，2~4 卡多卡并行更稳定，速度与并发能力显著提升。

一、环境准备

1. 基础环境配置

推荐使用 Ubuntu 22.04 系统，搭配 CUDA 12.1+（本文以 CUDA 12.4 为例），通过 Conda 创建隔离环境：

复制代码

# 创建并激活虚拟环境
conda create -n vllm python=3.11 -y
conda activate vllm

2. 安装 vLLM 与依赖

复制代码

# 安装 vLLM（必须 ≥ 0.6.6 版本）
pip install "vllm>=0.6.6" -U

# 安装模型下载工具（国内推荐魔搭）
pip install modelscope huggingface_hub

二、下载 DeepSeek-V4-Flash 模型

国内用户优先使用 魔搭社区（ModelScope） 下载，速度更快：

复制代码

# 下载官方原版 DeepSeek-V4-Flash 模型
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash

下载完成后，模型文件会保存在当前目录的 \./DeepSeek\-V4\-Flash 文件夹中。

三、RTX 4090 部署核心配置

关键参数说明（必看）

参数	作用	4090 部署建议
`\-\-quantization int4`	开启 INT4 量化，显存占用减半	必须开启
`\-\-max\-model\-len 131072`	限制上下文长度为 128K	必须设置，降低 KV 缓存显存占用
`\-\-gpu\-memory\-utilization 0\.85`	显存利用率限制，避免 OOM	单卡建议 0.8，多卡可设 0.85~0.9
`\-\-tensor\-parallel\-size N`	多卡张量并行数，N 为显卡数量	单卡设 1，2 卡设 2，以此类推
`\-\-enable\-prefix\-caching`	开启前缀缓存，提升对话场景速度	建议开启

1. 单卡 RTX 4090 24G 部署命令

适合本地测试、低并发场景：

复制代码

vllm serve \
  ./DeepSeek-V4-Flash \
  --trust-remote-code \
  --dtype float16 \
  --quantization int4 \
  --max-model-len 131072 \
  --gpu-memory-utilization 0.8 \
  --tensor-parallel-size 1 \
  --enable-prefix-caching \
  --disable-log-stats \
  --port 8000

2. 2 卡 RTX 4090 部署命令

适合更高并发、更稳定的场景：

复制代码

vllm serve \
  ./DeepSeek-V4-Flash \
  --trust-remote-code \
  --dtype float16 \
  --quantization int4 \
  --max-model-len 131072 \
  --gpu-memory-utilization 0.85 \
  --tensor-parallel-size 2 \
  --enable-prefix-caching \
  --port 8000

3. 4 卡 RTX 4090 部署命令

适合高并发、生产测试场景：

复制代码

vllm serve \
  ./DeepSeek-V4-Flash \
  --trust-remote-code \
  --dtype float16 \
  --quantization int4 \
  --max-model-len 131072 \
  --gpu-memory-utilization 0.9 \
  --tensor-parallel-size 4 \
  --enable-prefix-caching \
  --port 8000

四、部署成功后测试

1. OpenAI 兼容 API 调用

部署成功后，服务默认运行在 http://localhost:8000/v1，兼容 OpenAI 接口格式，可直接用 OpenAI SDK 调用：

复制代码

from openai import OpenAI

# 初始化客户端
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="dummy"  # 本地部署无需真实 API Key，填任意值即可
)

# 对话测试
response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "你是一个 helpful 的助手。"},
        {"role": "user", "content": "请用 100 字介绍一下 DeepSeek-V4-Flash。"}
    ],
    temperature=0.7,
    max_tokens=1024
)

print("模型回复：", response.choices[0].message.content)

2. 浏览器 Web 界面测试

可使用 open\-webui 等工具快速搭建 Web 界面，对接本地部署的 API，实现可视化对话。

五、性能与显存占用参考

部署方式	模型加载显存	支持并发	生成速度（token/s）	适用场景
单卡 4090	~18GB	2~4	12~25	本地测试、个人使用
2 卡 4090	~10GB / 卡	8~16	30~50	小组测试、低并发服务
4 卡 4090	~5GB / 卡	16~32	70~130	生产测试、高并发场景

六、常见问题与解决方案

1. 部署时爆显存（OOM）

降低 \-\-gpu\-memory\-utilization 数值（如从 0.85 改为 0.8）
减少并发请求数量
增加显卡数量，使用多卡并行

2. 模型加载失败

检查 vLLM 版本是否 ≥ 0.6.6
确认模型文件完整下载，无损坏
确保 \-\-trust\-remote\-code 参数已添加

3. 生成速度很慢

4090 无原生 FP8 加速，INT4 量化速度会比专业显卡慢，属于正常现象
多卡并行可显著提升速度
开启 \-\-enable\-prefix\-caching 优化对话场景速度

4. 精度下降明显

INT4 量化会轻微损失精度，对话、写作场景无明显影响，复杂推理任务建议使用更高精度显卡（如 A100）

七、总结

RTX 4090 24G 可以部署 DeepSeek-V4-Flash ，核心是 INT4 量化 + 限制 128K 上下文。
无需修改模型权重，使用官方原版模型即可，通过 vLLM 参数实现显存优化。
单卡可跑，多卡并行性能更稳，速度与并发能力显著提升。
部署后的服务兼容 OpenAI API，可直接对接各类应用与工具。