模型说明：DeepSeek-V4-Flash 官方原生支持 1M（104 万 token）上下文，本文通过参数限制为 128K 降低显存压力，无需修改模型权重。

硬件限制：RTX 4090 24G 仅支持 INT4 量化，FP8/FP16 显存不足，且 4090 无原生 FP8 硬件加速，INT4 是唯一可行方案，显卡不足建议部署采用 Q4_K_M 量化模型。

版本要求：vLLM 版本必须 ≥ 0.6.6，低版本不支持 MoE 模型推理。

性能预期：单卡 4090 可跑，2~4 卡多卡并行更稳定，速度与并发能力显著提升。

一、环境准备

基础环境配置

推荐使用 Ubuntu 22.04 系统，搭配 CUDA 12.1+（本文以 CUDA 12.4 为例），通过 Conda 创建隔离环境：

创建并激活虚拟环境

conda create -n vllm python=3.11 -y

conda activate vllm

安装 vLLM 与依赖

安装 vLLM（必须 ≥ 0.6.6 版本）

pip install "vllm>=0.6.6" -U

安装模型下载工具（国内推荐魔搭）

pip install modelscope huggingface_hub

二、下载 DeepSeek-V4-Flash 模型

国内用户优先使用魔搭社区（ModelScope）下载，速度更快：

下载官方原版 DeepSeek-V4-Flash 模型

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash

下载完成后，模型文件会保存在当前目录的 \./DeepSeek\-V4\-Flash 文件夹中。

三、RTX 4090 部署核心配置

关键参数说明（必看）

参数作用 4090 部署建议

\-\-quantization int4 开启 INT4 量化，显存占用减半必须开启

\-\-max\-model\-len 131072 限制上下文长度为 128K 必须设置，降低 KV 缓存显存占用

\-\-gpu\-memory\-utilization 0\.85 显存利用率限制，避免 OOM 单卡建议 0.8，多卡可设 0.85~0.9

\-\-tensor\-parallel\-size N 多卡张量并行数，N 为显卡数量单卡设 1，2 卡设 2，以此类推

\-\-enable\-prefix\-caching 开启前缀缓存，提升对话场景速度建议开启

单卡 RTX 4090 24G 部署命令

适合本地测试、低并发场景：

vllm serve \

./DeepSeek-V4-Flash-Q4_K_M \

--trust-remote-code \

--load-format gguf \

--max-model-len 131072 \

--gpu-memory-utilization 0.8 \

--tensor-parallel-size 1 \

--enable-prefix-caching \

--disable-log-stats \

--port 8000

AI写代码

2 卡 RTX 4090 部署命令

适合更高并发、更稳定的场景：

vllm serve \

./DeepSeek-V4-Flash-Q4_K_M \

--trust-remote-code \

--dtype float16 \

--max-model-len 131072 \

--gpu-memory-utilization 0.85 \

--tensor-parallel-size 2 \

--enable-prefix-caching \

--port 8000

AI写代码

4 卡 RTX 4090 部署命令

适合高并发、生产测试场景：

vllm serve \

./DeepSeek-V4-Flash-Q4_K_M \

--trust-remote-code \

--dtype float16 \

--max-model-len 131072 \

--gpu-memory-utilization 0.9 \

--tensor-parallel-size 4 \

--enable-prefix-caching \

--port 8000

AI写代码

8 卡 RTX 4090 部署命令

vllm serve \

./DeepSeek-V4-Flash \

--trust-remote-code \

--dtype auto \

--quantization awq \

--max-model-len 131072 \

--gpu-memory-utilization 0.95 \

--tensor-parallel-size 8 \

--enable-prefix-caching \

--disable-log-stats \

--port 8000

AI写代码

四、部署成功后测试

OpenAI 兼容 API 调用

部署成功后，服务默认运行在 http://localhost:8000/v1，兼容 OpenAI 接口格式，可直接用 OpenAI SDK 调用：

from openai import OpenAI

初始化客户端

client = OpenAI(

base_url="http://localhost:8000/v1",

api_key="dummy" # 本地部署无需真实 API Key，填任意值即可

)

对话测试

response = client.chat.completions.create(

model="deepseek-v4-flash",

messages=[

{"role": "system", "content": "你是一个 helpful 的助手。"},

{"role": "user", "content": "请用 100 字介绍一下 DeepSeek-V4-Flash。"}

temperature=0.7,

max_tokens=1024

)

print("模型回复：", response.choices[0].message.content)

浏览器 Web 界面测试

可使用 open\-webui 等工具快速搭建 Web 界面，对接本地部署的 API，实现可视化对话。

五、性能与显存占用参考

部署方式模型加载显存支持并发生成速度（token/s）适用场景

单卡 4090 ~18GB 2~4 12~25 本地测试、个人使用

2 卡 4090 ~10GB / 卡 8~16 30~50 小组测试、低并发服务

4 卡 4090 ~5GB / 卡 16~32 70~130 生产测试、高并发场景

六、常见问题与解决方案

部署时爆显存（OOM）

降低 \-\-gpu\-memory\-utilization 数值（如从 0.85 改为 0.8）

减少并发请求数量，确认使用Q4_K_M 而非普通 INT4

增加显卡数量，使用多卡并行

模型加载失败

检查 vLLM 版本是否 ≥ 0.6.6

确认模型文件完整下载，无损坏

确保 \-\-trust\-remote\-code 参数已添加

生成速度很慢

4090 无原生 FP8 加速，INT4 量化速度会比专业显卡慢，但Q4_K_M 精度优于普通 INT4

多卡并行可显著提升速度

开启 \-\-enable\-prefix\-caching 优化对话场景速度

精度下降明显

INT4 量化会轻微损失精度，对话、写作场景无明显影响，复杂推理任务建议使用更高精度显卡（如 A100）

七、总结

RTX 4090 24G 可以部署 DeepSeek-V4-Flash，核心是 Q4_K_M 量化 + 限制 128K 上下文。

无需修改模型权重，使用官方原版模型即可，通过 vLLM 参数实现显存优化。

单卡可跑，多卡并行性能更稳，速度与并发能力显著提升。

部署后的服务兼容 OpenAI API，可直接对接各类应用与工具。

RTX 5090 24G 部署 DeepSeek-V4-Flash 全攻略

创建并激活虚拟环境

安装 vLLM（必须 ≥ 0.6.6 版本）

安装模型下载工具（国内推荐魔搭）

下载官方原版 DeepSeek-V4-Flash 模型

初始化客户端

对话测试