前言
-
模型说明:DeepSeek-V4-Flash 官方原生支持 1M(104 万 token)上下文,本文通过参数限制为 128K 降低显存压力,无需修改模型权重。
-
硬件限制 :RTX 4090 24G 仅支持 INT4 量化,FP8/FP16 显存不足,且 4090 无原生 FP8 硬件加速,INT4 是唯一可行方案。
-
版本要求:vLLM 版本必须 ≥ 0.6.6,低版本不支持 MoE 模型推理。
-
性能预期:单卡 4090 可跑,2~4 卡多卡并行更稳定,速度与并发能力显著提升。
一、环境准备
1. 基础环境配置
推荐使用 Ubuntu 22.04 系统,搭配 CUDA 12.1+(本文以 CUDA 12.4 为例),通过 Conda 创建隔离环境:
# 创建并激活虚拟环境
conda create -n vllm python=3.11 -y
conda activate vllm
2. 安装 vLLM 与依赖
# 安装 vLLM(必须 ≥ 0.6.6 版本)
pip install "vllm>=0.6.6" -U
# 安装模型下载工具(国内推荐魔搭)
pip install modelscope huggingface_hub
二、下载 DeepSeek-V4-Flash 模型
国内用户优先使用 魔搭社区(ModelScope) 下载,速度更快:
# 下载官方原版 DeepSeek-V4-Flash 模型
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash
下载完成后,模型文件会保存在当前目录的 \./DeepSeek\-V4\-Flash 文件夹中。
三、RTX 4090 部署核心配置
关键参数说明(必看)
| 参数 | 作用 | 4090 部署建议 |
|---|---|---|
\-\-quantization int4 |
开启 INT4 量化,显存占用减半 | 必须开启 |
\-\-max\-model\-len 131072 |
限制上下文长度为 128K | 必须设置,降低 KV 缓存显存占用 |
\-\-gpu\-memory\-utilization 0\.85 |
显存利用率限制,避免 OOM | 单卡建议 0.8,多卡可设 0.85~0.9 |
\-\-tensor\-parallel\-size N |
多卡张量并行数,N 为显卡数量 | 单卡设 1,2 卡设 2,以此类推 |
\-\-enable\-prefix\-caching |
开启前缀缓存,提升对话场景速度 | 建议开启 |
1. 单卡 RTX 4090 24G 部署命令
适合本地测试、低并发场景:
vllm serve \
./DeepSeek-V4-Flash \
--trust-remote-code \
--dtype float16 \
--quantization int4 \
--max-model-len 131072 \
--gpu-memory-utilization 0.8 \
--tensor-parallel-size 1 \
--enable-prefix-caching \
--disable-log-stats \
--port 8000
2. 2 卡 RTX 4090 部署命令
适合更高并发、更稳定的场景:
vllm serve \
./DeepSeek-V4-Flash \
--trust-remote-code \
--dtype float16 \
--quantization int4 \
--max-model-len 131072 \
--gpu-memory-utilization 0.85 \
--tensor-parallel-size 2 \
--enable-prefix-caching \
--port 8000
3. 4 卡 RTX 4090 部署命令
适合高并发、生产测试场景:
vllm serve \
./DeepSeek-V4-Flash \
--trust-remote-code \
--dtype float16 \
--quantization int4 \
--max-model-len 131072 \
--gpu-memory-utilization 0.9 \
--tensor-parallel-size 4 \
--enable-prefix-caching \
--port 8000
四、部署成功后测试
1. OpenAI 兼容 API 调用
部署成功后,服务默认运行在 http://localhost:8000/v1,兼容 OpenAI 接口格式,可直接用 OpenAI SDK 调用:
from openai import OpenAI
# 初始化客户端
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="dummy" # 本地部署无需真实 API Key,填任意值即可
)
# 对话测试
response = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[
{"role": "system", "content": "你是一个 helpful 的助手。"},
{"role": "user", "content": "请用 100 字介绍一下 DeepSeek-V4-Flash。"}
],
temperature=0.7,
max_tokens=1024
)
print("模型回复:", response.choices[0].message.content)
2. 浏览器 Web 界面测试
可使用 open\-webui 等工具快速搭建 Web 界面,对接本地部署的 API,实现可视化对话。
五、性能与显存占用参考
| 部署方式 | 模型加载显存 | 支持并发 | 生成速度(token/s) | 适用场景 |
|---|---|---|---|---|
| 单卡 4090 | ~18GB | 2~4 | 12~25 | 本地测试、个人使用 |
| 2 卡 4090 | ~10GB / 卡 | 8~16 | 30~50 | 小组测试、低并发服务 |
| 4 卡 4090 | ~5GB / 卡 | 16~32 | 70~130 | 生产测试、高并发场景 |
六、常见问题与解决方案
1. 部署时爆显存(OOM)
-
降低
\-\-gpu\-memory\-utilization数值(如从 0.85 改为 0.8) -
减少并发请求数量
-
增加显卡数量,使用多卡并行
2. 模型加载失败
-
检查 vLLM 版本是否 ≥ 0.6.6
-
确认模型文件完整下载,无损坏
-
确保
\-\-trust\-remote\-code参数已添加
3. 生成速度很慢
-
4090 无原生 FP8 加速,INT4 量化速度会比专业显卡慢,属于正常现象
-
多卡并行可显著提升速度
-
开启
\-\-enable\-prefix\-caching优化对话场景速度
4. 精度下降明显
- INT4 量化会轻微损失精度,对话、写作场景无明显影响,复杂推理任务建议使用更高精度显卡(如 A100)
七、总结
-
RTX 4090 24G 可以部署 DeepSeek-V4-Flash ,核心是 INT4 量化 + 限制 128K 上下文。
-
无需修改模型权重,使用官方原版模型即可,通过 vLLM 参数实现显存优化。
-
单卡可跑,多卡并行性能更稳,速度与并发能力显著提升。
-
部署后的服务兼容 OpenAI API,可直接对接各类应用与工具。