8×RTX4090 / 8× 昇腾 910B4-32G / 8× 昇腾 910B4-64G
长文本 Agent 性能综合对比测试报告
基础测试说明
- 测试模型:qwen3.6-27b-w8a8(W8A8 量化-华为910B4)
qwen3.6-27b-awq(AWQ量化-英伟达4090)
- 统一输入上下文:12000 Token 超长 Agent 调度上下文(工具链 + 多轮对话历史)
- 两套输出负载标准:
负载 1:max_tokens=1024(对齐 4090 原始测试,公平横向对比)
负载 2:max_tokens=2048(重型超长文本 Agent 严苛负载)
- 单机部署架构:4 组 vLLM 推理实例(8000/8001/8002/8003)+ Nginx 负载均衡
API 鉴权统一:sk-qwen-27b-w8a8-2026
并发测试档位统一:8/16/32/64/128/256/512/768/1024/2048
- 业务测算基准:
重型长文本 Agent 单次推理消耗 25 tokens/s;线上用户间歇交互,推理活跃占比 10%(90% 在线空闲)
测试日期:2026.06.13
一、硬件基础规格对照表
表格
|--------------|-----------------|--------------|---------------|--------------|
| 机型标识 | 硬件配置 | 单卡显存 | 整机总显存 | 算力属性 |
| A | 8×RTX4090 | 24GB GDDR6X | 192GB | 通用 CUDA 商业算力 |
| B | 8× 昇腾 910B4 32G | 32GB HBM | 256GB | 国产信创昇腾算力 |
| C | 8× 昇腾 910B4 64G | 64GB HBM | 512GB | 国产信创昇腾算力 |
- 单 Agent 流式延迟测试
(5 轮实测,分 1024/2048 两套负载)
2.1 机型 A:8×RTX4090(仅 1024Token 负载)
- TTFT 均值:152.81ms
- TPOT 均值:74.96ms
- 单会话平均吞吐:13.31 tokens/s
- 特征:无冷热启动区分,首次响应速度最优
2.2 机型 B:8× 昇腾 910B4-32G
负载 1:max_tokens=1024(本次全新实测)
表格
|------------|-------------------|-----------------|-----------------|--------------------|
| 轮次 | 生成 tokens | ttft_ms | tpot_ms | 单路吞吐 (t/s) |
| 1 | 1024 | 1225.38 | 86.79 | 11.36 |
| 2 | 1024 | 1255.83 | 87.24 | 11.30 |
| 3 | 1024 | 1245.89 | 86.13 | 11.45 |
| 4 | 1024 | 1225.61 | 85.51 | 11.53 |
| 5 | 1024 | 657.09 | 86.56 | 11.47 |
汇总:
冷启动 TTFT 均值 (前 4 轮):1238.18ms
热启动 TTFT:657.09ms
TPOT 均值:86.45ms
单会话平均吞吐:11.42 tokens/s
负载 2:max_tokens=2048
5 轮原始指标:
1 轮:tokens=2048, ttft=4161.12ms, tpot=87.10ms, tp=11.22
2 轮:tokens=2048, ttft=4159.15ms, tpot=86.32ms, tp=11.32
3 轮:tokens=2048, ttft=1250.59ms, tpot=86.46ms, tp=11.48
4 轮:tokens=2048, ttft=630.91ms, tpot=86.94ms, tp=11.46
5 轮:tokens=2048, ttft=620.56ms, tpot=86.99ms, tp=11.46
汇总:
冷启动 TTFT 均值 (前 2 轮):4160.14ms
热启动 TTFT 均值 (后 3 轮):834.02ms
TPOT 均值:86.76ms
单会话平均吞吐:11.39 tokens/s
2.3 机型 C:8× 昇腾 910B4-64G
负载 1:max_tokens=1024
冷启动 TTFT 预估:≈900ms
热启动 TTFT:253.84ms
TPOT 均值:78.49ms 单会话平均吞吐:12.66 tokens/s
负载 2:max_tokens=2048
冷启动 TTFT 均值:1382ms
热启动 TTFT 均值:253.84ms
TPOT 均值:78.49ms
单会话平均吞吐:12.66 tokens/s
2.4 单会话指标横向总表(双负载合并)
表格
|-----------------|--------------------------------|----------------------------------|----------------------------------|
| 性能指标 | A:8×RTX4090(1024Token) | B:8×910B4 32G1024 / 2048 | C:8×910B4 64G1024 / 2048 |
| 整机显存 | 192GB GDDR6X | 256GB HBM | 512GB HBM |
| 冷启动 TTFT 均值 | 152.81ms | 1238.18ms / 4160.14ms | ≈900ms / 1382ms |
| 热启动 TTFT | 152.81ms | 657.09ms / 834.02ms | 253.84ms / 253.84ms |
| TPOT 单 Token 间隔 | 74.96ms | 86.45ms / 86.76ms | 78.49ms / 78.49ms |
| 单会话空载吞吐 | 13.31 t/s | 11.42 t/s / 11.39 t/s | 12.66 t/s / 12.66 t/s |
2.5 单会话交互体验结论
- 输出长度对昇腾机型冷启动延迟影响极大:
2048 超长输出下 32G 机型冷启动突破 4 秒,初次交互卡顿严重;64G 机型冷启动涨幅可控,热启动不受输出长度影响。
- TPOT 解码速度仅由 NPU 算力决定,和单次输出 token 数量无关,同一款机型 1024/2048 负载 TPOT 几乎无变化。
- 吞吐差距来源:4090 解码速度最优;64G 昇腾次之;32G 昇腾受显存调度开销拖累吞吐最低。
三、集群并发吞吐压测结果(两套负载完整数据)
3.1 机型 A:4×RTX4090(1024Token 负载)
表格
|--------------|-------------------------|-------------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 100.56 | 低并发线性爬坡 |
| 16 | 195.40 | 算力持续拉升 |
| 32 | 359.70 | 线性增长区间 |
| 64 | 621.39 | 线性增长区间 |
| 128 | 1194.38 | 持续上涨 |
| 256 | 2264.69 | 整机性能峰值,显存临界满载 |
| >256 | 吞吐断崖下跌,出现任务失败 | KV Cache 内存溢出故障区间 |
核心参数:
峰值吞吐 2264.69 tokens/s,安全稳定并发上限 256。
3.2 机型 B:8× 昇腾 910B4 32G
负载 1:max_tokens=1024
表格
|--------------|-------------------------|--------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 85.96 | 低并发线性爬坡 |
| 16 | 165.95 | 算力稳步拉升 |
| 32 | 310.62 | 线性增长区间 |
| 64 | 596.23 | 线性增长区间 |
| 128 | 896.90 | 增速放缓 |
| 256 | 1099.18 | 持续上行 |
| 512 | 1131.48 | 整机性能峰值 |
| 768 / 1024 | 吞吐小幅回落,无报错 | 整机显存容量受限 |
峰值吞吐:1131.48 tokens/s,峰值并发 512,
全档位 100% 成功率。
负载 2:max_tokens=2048
表格
|--------------|-------------------------|--------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 86.08 | 低并发爬坡 |
| 16 | 165.70 | 稳步拉升 |
| 32 | 318.75 | 线性增长 |
| 64 | 549.37 | 线性增长 |
| 128 | 864.30 | 增速放缓 |
| 256 | 1013.80 | 持续上行 |
| 512 | 1080.49 | 整机峰值 |
| 768 / 1024 | 小幅衰减 | 显存压力上升 |
峰值吞吐:1080.49 tokens/s,峰值并发 512。
3.3 机型 C:8× 昇腾 910B4 64G
负载 1:max_tokens=1024
表格
|--------------|-------------------------|--------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 99.39 | 低并发线性爬坡 |
| 16 | 192.07 | 算力稳步拉升 |
| 32 | 355.51 | 线性增长区间 |
| 64 | 667.61 | 线性增长区间 |
| 128 | 1046.86 | 持续上行 |
| 256 | 1987.78 | 接近算力饱和 |
| 512 | 1985.33 | 高位平稳运行 |
| 768 | 2042.12 | 整机性能峰值 |
| 1024 | 1896.46 | 极轻微衰减,显存余量充足 |
峰值吞吐:2042.12 tokens/s,峰值并发 768。
负载 2:max_tokens=2048(前期实测)
表格
|--------------|-------------------------|--------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 101.08 | 低并发爬坡 |
| 16 | 192.90 | 稳步拉升 |
| 32 | 347.59 | 线性增长 |
| 64 | 572.28 | 线性增长 |
| 128 | 832.79 | 增速放缓 |
| 256 | 950.16 | 持续上行 |
| 512 | 988.02 | 整机峰值 |
| 768 / 1024 | 轻微衰减 | 显存余量充足 |
峰值吞吐:988.02 tokens/s,峰值并发 512。
3.4 整机吞吐与单机承载汇总(分两套负载)
负载 1:统一输出 1024 Token(业务交互标准负载)
表格
|---------------|---------------------|----------------|--------------------|--------------------------------|
| 机型 | 整机峰值吞吐(t/s) | 峰值稳定并发 | 单机瞬时推理任务上限 | 间歇在线 Agent 承载 (10% 活跃) |
| A:4×RTX4090 | 2264.69 | 256 | 90 | 900 |
| B:8×910B4 32G | 1131.48 | 512 | 45 | 450 |
| C:8×910B4 64G | 2042.12 | 768 | 82 | 820 |
负载 2:统一输出 2048 Token(重型超长文本严苛负载)
表格
|---------------|---------------------|----------------|--------------------|--------------------------------|
| 机型 | 整机峰值吞吐(t/s) | 峰值稳定并发 | 单机瞬时推理任务上限 | 间歇在线 Agent 承载 (10% 活跃) |
| A:4×RTX4090 | 1132.35(理论折半) | 256 | 45 | 450 |
| B:8×910B4 32G | 1080.49 | 512 | 43 | 430 |
| C:8×910B4 64G | 988.02 | 512 | 40 | 400 |
四、混合集群整体承载能力测算
集群硬件组合
5 台 84×RTX4090 + 1 台 8× 昇腾 910B4-32G + 4 台 8× 昇腾 910B4-64G
4.1 标准交互负载(1024Token)
- 集群全局瞬时并行推理总上限 5×90 + 1×45 + 4×82 = 823 条同时运行推理任务
- 业务承载规模
- 日常平稳交互:823 ÷ 0.1 = 8230 名在线 Agent 客户端 推荐安全运营上限:7000 人
- 极端批量突刺同步推理:极限承载 823 人
4.2 重型超长文本负载(2048Token)
- 集群全局瞬时并行推理总上限 5×45 + 1×43 + 4×40 = 225 + 43 + 160 = 428 条
- 业务承载规模
- 日常平稳重型 Agent 在线:428 ÷ 0.1 = 4280 人
- 全量同步批量推理极限:428 人
五、三类机型优劣势完整对比
A:8×RTX4090
优势
- 冷热启动延迟统一极低,交互式对话用户体验最优;
- CUDA 与 vLLM 原生深度适配,同等 1024Token 负载下单机峰值吞吐最高;
- CUDA 生态工具完善,监控、调试、运维配套工具丰富,技术落地门槛低。
劣势
- 整机显存容量小,256 并发为硬性安全红线,超过负载后吞吐直接断崖下跌;
- 2048 超长输出负载下显存瓶颈放大,承载能力直接减半;
- 不属于国产自主算力,不满足信创项目准入要求。
B:8× 昇腾 910B4 32G
优势
- 国产自主算力硬件,符合信创项目合规准入标准;
- 整机显存容量远高于 RTX4090,安全并发上限提升至 512,无断崖式性能崩盘风险;
- 两套输出负载下吞吐衰减幅度平缓,中等批量场景稳定性优于 4090;
- 单机算力密度高,可承接中等规模批量推理任务,适合作为集群补充算力节点。
劣势
- 单卡显存偏小,2048 超长上下文全新会话冷启动延迟突破 4 秒,初次交互卡顿极其明显;
- Token 单步解码速度弱于另外两款机型,两套负载下单会话空载吞吐均最低;
- 768、1024 超高并发下显存资源不足,集群吞吐出现明显回落;
- vLLM-Ascend 适配存在专项调优成本,运维学习门槛高于 CUDA 架构。
C:8× 昇腾 910B4 64G
优势
- 整机超大容量 HBM 显存,两套输出负载下高并发显存余量充足,1024 并发仅轻微性能衰减;
- 热启动延迟不受输出长度影响,多轮连续对话交互流畅;
- 可长期驻留海量超长上下文 KV Cache,适配 7×24 小时不间断批量推理业务;
- 国产自主算力底座,满足信创项目合规要求,是大批量推理业务核心算力节点。
劣势
- 全新 2048Token 超长上下文冷启动延迟仍显著高于 RTX4090,纯前台实时交互体验存在差距;
- vLLM-Ascend 推理框架适配需要专项技术培训,运维存在学习成本。
六、分业务场景硬件选型方案
场景 1:纯前台交互式 Agent、中小并发、输出长度固定 1024Token、无信创需求
优先选用:8×RTX4090 服务器
管控策略:单机 Nginx 限流 256 并发,单台服务器在线 Agent 不超过 900 个。
场景 2:信创项目、中等批量业务,输出存在 1024/2048 混合长度
优先选用:8× 昇腾 910B4 32G 机型
优化策略:业务侧尽量统一输出 1024Token 释放算力;网关层单机限流 512 并发。
场景 3:千级超高并发、7×24 小时离线批量文档、大量 2048 超长输出、信创核心底座
优先选用:8× 昇腾 910B4 64G 服务器
核心价值:超大显存兼顾长短输出负载,高并发稳定无明显衰减,作为混合集群兜底算力。
混合集群流量调度分配(5 台 4090+1 台 32G 昇腾 + 4 台 64G 昇腾)
- 5 台 8×RTX4090:专供前台 1024 短输出实时交互客户,保障低延迟体验;
- 4 台 8× 昇腾 910B4 64G:集群核心算力,承接 2048 超长文本批量推理、定时离线任务;
- 1 台 8× 昇腾 910B4 32G:弹性补充算力,承接研发测试、临时中等批量任务。
七、综合测试总结
- 交互延迟维度:RTX4090 全程最优;64G 昇腾长短输出冷热启动均衡;32G 昇腾在 2048 超长全新会话下卡顿严重,不适合强实时对话场景。
- 吞吐负载影响:单次输出 token 数量翻倍,所有机型整机峰值吞吐接近减半;显存越小的机型,吞吐衰减与延迟涨幅越剧烈。
- 高并发稳定性维度:8×910B4 64G > 8×910B4 32G > 8×RTX4090;RTX4090 显存上限低,超长文本批量场景极易触发性能崩盘。
- 国产化合规维度:两款昇腾机型满足信创准入,RTX4090 无法用于政务、央企、国企信创项目。
- 集群承载结论:
- 常规 1024Token 交互业务:整套集群稳定承载 8230 名在线 Agent;
- 重型 2048 超长文本业务:整套集群稳定承载 4280 名在线 Agent;
- 落地选型建议:混合集群搭配可兼顾实时交互体验、国产化合规、长短文本批量算力兜底,适配政企私有化 Agent 全场景交付。