怎么计算vllm启动大模型的并发数

🧠 一、影响 vLLM 并发请求数的关键因素

🔍 二、实时查看当前并发请求数 / 队列情况

vLLM 本身有监控接口与日志输出,可以直接观察:

1️⃣ 查看日志输出

在你运行命令的终端或日志文件(例如你用的)

bash 复制代码
nohup python3 -m vllm.entrypoints.openai.api_server ... > vllm_server.log 2>&1 &

然后查看日志:

bash 复制代码
tail -f vllm_server.log

你会看到类似:

bash 复制代码
INFO [Engine] num_requests_running=12 num_waiting=5 max_num_seqs=128

解释:

• num_requests_running: 当前正在执行的请求数量

• num_waiting: 正在排队等待的请求数量

• max_num_seqs: 最大可同时运行请求数(来自你的配置)

2️⃣ 查看 HTTP 监控接口(推荐)

vLLM 启动后自带一个监控 API:

bash 复制代码
GET http://localhost:8000/metrics

执行命令查看:

bash 复制代码
curl http://localhost:8000/metrics | grep vllm

输出会包含 Prometheus 格式的监控指标,比如:

bash 复制代码
vllm_running_requests 32
vllm_waiting_requests 8
vllm_num_finished_requests_total 1052
vllm_gpu_memory_usage_bytes 73400320000

这几个指标直接告诉你当前:

• 有多少请求在运行

• 有多少在排队

• GPU 显存占用情况

你可以把这些 metrics 挂在 Prometheus + Grafana 做实时监控。

3️⃣ 代码中查看(OpenAI 兼容接口)

如果你在用 OpenAI 接口调用:

bash 复制代码
openai.api_key = "none"
openai.base_url = "http://localhost:8000/v1"

vLLM 会在负载过高时返回:

bash 复制代码
{
  "error": {
    "message": "Server busy, please retry later",
    "type": "server_overloaded"
  }
}

这表明当前已经达到 max-num-seqs 上限。

⚙️ 三、手动配置或限制最大并发请求数

1️⃣ 设置最大序列数

在启动命令中添加参数:

bash 复制代码
--max-num-seqs 128

👉 表示最多同时处理 128 个请求(包括生成和等待的 token 序列)。

2️⃣ 设置显存使用率上限

bash 复制代码
--gpu-memory-utilization 0.9

👉 vLLM 会在达到 90% 显存时拒绝新请求,自动排队或返回 "busy" 错误。

3️⃣ Nginx 层限流(上层防护)

在你的反向代理层可以加上:

bash 复制代码
limit_conn_zone $binary_remote_addr zone=addr:10m;
limit_conn addr 20;
limit_req zone=req_limit_per_ip burst=5 nodelay;

👉 限制每个客户端最多并发 20 个请求,超过的直接拒绝。

📈 四、估算最大可并发请求数

经验公式(粗略):

N m a x ≈ G P U _ 显存 ( G B ) × 利用率 上下文长度 × 0.001 N_{max} \approx \frac{GPU\_显存(GB) × 利用率}{上下文长度 × 0.001} Nmax≈上下文长度×0.001GPU_显存(GB)×利用率

例如:

参数 值

显存 80 GB

利用率 0.9

每请求上下文 2000 tokens

单 token KV cache ≈ 1 KB

⇒ 每请求占显存 ≈ 2MB

计算:
N m a x ≈ 80 × 0.9 × 1024 2 ≈ 36 , 864 ≈ 36 个请求(单卡) N_{max} ≈ \frac{80 × 0.9 × 1024}{2} ≈ 36,864 ≈ 36 个请求(单卡) Nmax≈280×0.9×1024≈36,864≈36个请求(单卡)

多卡(TP=4)约可达 120~150 个并发请求。

✅ 总结:查看并发能力的几种方式

相关推荐
远上寒山4 天前
DeepSeek-OCR 论文精读与实践:用“光学上下文压缩”把长文本变成图片,再由 VLM 高效还原
ocr·vllm·文档解析·deepseek·deepseek-ocr·视觉-文本压缩
weixin_438077499 天前
windows10安装WSL2 & ubuntu24.04中安装vLLM & vLLM中部署Qwen2.5-VL
llm·vllm·qwen2.5-vl
hu_nil9 天前
LLMOps-第十一周作业
python·vllm
deephub10 天前
vLLM 性能优化实战:批处理、量化与缓存配置方案
人工智能·python·大语言模型·1024程序员节·vllm
九章云极AladdinEdu11 天前
大模型推理服务优化:vLLM的PagedAttention与连续批处理实现
vllm·kv缓存·推理优化·pagedattention·连续批处理·吞吐量对比
羊城迷鹿12 天前
华为昇腾NPU驱动问题排查与vLLM部署踩坑记录
昇腾·npu·vllm
vincent&lin1 个月前
vLLM - GPUModelRunner
人工智能·vllm
居7然1 个月前
如何高效微调大模型?LLama-Factory一站式解决方案全解析
人工智能·大模型·llama·大模型训练·vllm
小毕超2 个月前
使用 EvalScope 对 vLLM 私有化部署 Qwen3-30B-A3B 模型性能压测
vllm·evalscope·qwen3-30b-a3b