4090 8卡服务器 - Qwen3.6-27B-AWQ 完整压测报告 (V2.0)

一、测试概述

|--------|----------------------------------------|
| 项目 | 规格 |
| GPU | NVIDIA RTX 4090 × 8 (24GB × 8 = 192GB) |
| 模型 | Qwen3.6-27B-AWQ (AWQ 4-bit 量化) |
| 架构 | 4 × TP=2 实例 + Nginx least_conn 负载均衡 |
| 输入长度 | ~1024 tokens |
| 输出长度 | 256 tokens |
| API 端口 | 2196 (Nginx) → 8000/8001/8002/8003 |

二、完整测试矩阵

2.1 阶梯测试 (固定 50 请求)

|-----|----|------|---------|-------|------|-----------|
| 并发 | 请求 | 成功率 | 总耗时 | 平均延迟 | QPS | 吞吐(tok/s) |
| 1 | 50 | 100% | 1031.7s | 20.0s | 0.04 | 12.40 |
| 10 | 50 | 100% | 160.6s | 31.8s | 0.31 | 79.69 |
| 20 | 50 | 100% | 61.3s | 20.4s | 0.81 | 208.64 |
| 50 | 50 | 100% | 21.8s | 21.0s | 2.29 | 587.42 |
| 100 | 50 | 100% | 21.7s | 20.9s | 2.30 | 591.08 |
| 150 | 50 | 100% | 21.8s | 20.9s | 2.29 | 588.39 |
| 200 | 50 | 100% | 21.5s | 20.8s | 2.32 | 594.05 |
| 250 | 50 | 100% | 21.9s | 20.9s | 2.28 | 585.27 |

2.2 补充测试 (变请求数)

|-------------|-------------|--------------|---------------|---------------|--------------|--------------------|
| 并发 | 请求 | 成功率 | 总耗时 | 平均延迟 | QPS | 吞吐(tok/s) |
| 50 | 100 | 100% | 43.1s | 20.9s | 2.32 | 594.24 |
| 100 | 100 | 100% | 22.3s | 21.2s | 4.48 | 1147.46 |
| 150 | 100 | 100% | 28.2s | 23.0s | 3.54 | 906.99 |
| 150 | 150 | 100% | 29.6s | 23.7s | 5.07 | 1298.13 |
| 200 | 150 | 100% | 24.6s | 22.3s | 6.09 | �� 1560.08 |
| 200 | 200 | 100% | 42.6s | 22.4s | 4.69 | 1202.07 |
| 250 | 200 | 100% | 43.1s | 22.4s | 4.64 | 1188.18 |
| 250 | 250 | 100% | 45.1s | 26.8s | 5.54 | 1419.54 |

三、关键发现

3.1 性能拐点分析

|--------------|------------------|--------------------------|
| 阶段 | 特征 | 关键数据 |
| 线性增长 | 并发 1→50, 请求 50 | 吞吐 12.4→587 (47倍) |
| 饱和平台 | 并发 50→250, 请求 50 | 吞吐 585-594, 波动<2% |
| 突破峰值 | 并发 200, 请求 150 | �� 1560.08 tok/s |
| 队列堆积 | 并发 200+, 请求 200+ | 延迟上升, 吞吐回落 |

3.2 核心结论

峰值吞吐: 1560.08 tok/s @ 并发 200, 请求 150
- 是阶梯测试峰值 594 的 2.63 倍
- 是 B60 8卡最优 (336 tok/s) 的 4.64 倍
请求数对吞吐影响巨大
- 同并发 100: 50请求→591 tok/s, 100请求→1147 tok/s (几乎翻倍)
- 说明 vLLM continuous batching 在大批次时效率更高
并发 150 + 请求 100 异常回落
- 吞吐 907 tok/s, 低于预期
- 可能原因: 批次切分不均, 或 Nginx least_conn 调度波动
延迟始终稳定
- P99 延迟 19.2s→22.2s (并发 250 以内)
- 仅并发 250+请求 250 时 P99 上升到 26.8s
- 说明 GPU 算力是瓶颈, 调度器无瓶颈
成功率 100%
- 全部 1050/1050 请求零失败
- 零 OOM, 零超时

四、生产配置推荐

|------------------|------------------------|--------------------|---------------|---------------|
| 业务场景 | 推荐配置 | 吞吐 | P99延迟 | 适用 |
| 实时对话 (<30s) | 并发 20, 队列 50 | 208 tok/s | 19.8s | 客服机器人 |
| 在线API (<60s) | 并发 100, 队列 100 | 1147 tok/s | 20.9s | 内容生成 |
| 批处理 (推荐) | 并发 200, 队列 150 | 1560 tok/s | 21.5s | 文档/翻译 |
| 极限吞吐 | 并发 200, 队列 150 | 1560 tok/s | 21.5s | 后台任务 |
| 高并发长队列 | 并发 250, 队列 250 | 1420 tok/s | 26.8s | 离线分析 |

五、集群承载能力

基于峰值 1560 tok/s: - 每用户平均 512 tokens (输入+输出) - 理论并发用户 = 1560 / (512/21.5) ≈ 65 用户/秒 持续请求 - 或 200 并发连接 长会话模式

六、与 B60 对比

|-------|--------------------|------------------|----------------|
| 指标 | 4090 8卡 (本测试) | B60 8卡 (参考) | 倍数 |
| 峰值吞吐 | 1560 tok/s | 336 tok/s | 4.6× |
| 最优并发 | 200 | 150 | - |
| 单请求延迟 | ~21s | ~28s | 1.3× 快 |
| 成功率 | 100% | 100% | 持平 |
| 单卡显存 | 24GB | 48GB (24×2 Tile) | - |

测试时间: 2026-05-26 16:03 - 16:42 总请求数: 1050 (阶梯 400 + 补充 650)