Agent 后台 - Token工场-集群设备配置建议

8×RTX4090 / 8× 昇腾 910B4-32G / 8× 昇腾 910B4-64G

长文本 Agent 性能综合对比测试报告

基础测试说明

测试模型：qwen3.6-27b-w8a8（W8A8 量化-华为910B4）

qwen3.6-27b-awq（AWQ量化-英伟达4090）

统一输入上下文：12000 Token 超长 Agent 调度上下文（工具链 + 多轮对话历史）
两套输出负载标准：

负载 1：max_tokens=1024（对齐 4090 原始测试，公平横向对比）

负载 2：max_tokens=2048（重型超长文本 Agent 严苛负载）

单机部署架构：4 组 vLLM 推理实例（8000/8001/8002/8003）+ Nginx 负载均衡

API 鉴权统一：sk-qwen-27b-w8a8-2026

并发测试档位统一：8/16/32/64/128/256/512/768/1024/2048

业务测算基准：

重型长文本 Agent 单次推理消耗 25 tokens/s；线上用户间歇交互，推理活跃占比 10%（90% 在线空闲）

测试日期：2026.06.13

一、硬件基础规格对照表

表格

|--------------|-----------------|--------------|---------------|--------------|
| 机型标识 | 硬件配置 | 单卡显存 | 整机总显存 | 算力属性 |
| A | 8×RTX4090 | 24GB GDDR6X | 192GB | 通用 CUDA 商业算力 |
| B | 8× 昇腾 910B4 32G | 32GB HBM | 256GB | 国产信创昇腾算力 |
| C | 8× 昇腾 910B4 64G | 64GB HBM | 512GB | 国产信创昇腾算力 |

单 Agent 流式延迟测试

（5 轮实测，分 1024/2048 两套负载）

2.1 机型 A：8×RTX4090（仅 1024Token 负载）

TTFT 均值：152.81ms
TPOT 均值：74.96ms
单会话平均吞吐：13.31 tokens/s
特征：无冷热启动区分，首次响应速度最优

2.2 机型 B：8× 昇腾 910B4-32G

负载 1：max_tokens=1024（本次全新实测）

表格

|------------|-------------------|-----------------|-----------------|--------------------|
| 轮次 | 生成 tokens | ttft_ms | tpot_ms | 单路吞吐 (t/s) |
| 1 | 1024 | 1225.38 | 86.79 | 11.36 |
| 2 | 1024 | 1255.83 | 87.24 | 11.30 |
| 3 | 1024 | 1245.89 | 86.13 | 11.45 |
| 4 | 1024 | 1225.61 | 85.51 | 11.53 |
| 5 | 1024 | 657.09 | 86.56 | 11.47 |

汇总：

冷启动 TTFT 均值 (前 4 轮)：1238.18ms

热启动 TTFT：657.09ms

TPOT 均值：86.45ms

单会话平均吞吐：11.42 tokens/s

负载 2：max_tokens=2048

5 轮原始指标：

1 轮：tokens=2048, ttft=4161.12ms, tpot=87.10ms, tp=11.22

2 轮：tokens=2048, ttft=4159.15ms, tpot=86.32ms, tp=11.32

3 轮：tokens=2048, ttft=1250.59ms, tpot=86.46ms, tp=11.48

4 轮：tokens=2048, ttft=630.91ms, tpot=86.94ms, tp=11.46

5 轮：tokens=2048, ttft=620.56ms, tpot=86.99ms, tp=11.46

汇总：

冷启动 TTFT 均值 (前 2 轮)：4160.14ms

热启动 TTFT 均值 (后 3 轮)：834.02ms

TPOT 均值：86.76ms

单会话平均吞吐：11.39 tokens/s

2.3 机型 C：8× 昇腾 910B4-64G

负载 1：max_tokens=1024

冷启动 TTFT 预估：≈900ms

热启动 TTFT：253.84ms

TPOT 均值：78.49ms 单会话平均吞吐：12.66 tokens/s

负载 2：max_tokens=2048

冷启动 TTFT 均值：1382ms
热启动 TTFT 均值：253.84ms

TPOT 均值：78.49ms

单会话平均吞吐：12.66 tokens/s

2.4 单会话指标横向总表（双负载合并）

表格

|-----------------|--------------------------------|----------------------------------|----------------------------------|
| 性能指标 | A：8×RTX4090(1024Token) | B：8×910B4 32G1024 / 2048 | C：8×910B4 64G1024 / 2048 |
| 整机显存 | 192GB GDDR6X | 256GB HBM | 512GB HBM |
| 冷启动 TTFT 均值 | 152.81ms | 1238.18ms / 4160.14ms | ≈900ms / 1382ms |
| 热启动 TTFT | 152.81ms | 657.09ms / 834.02ms | 253.84ms / 253.84ms |
| TPOT 单 Token 间隔 | 74.96ms | 86.45ms / 86.76ms | 78.49ms / 78.49ms |
| 单会话空载吞吐 | 13.31 t/s | 11.42 t/s / 11.39 t/s | 12.66 t/s / 12.66 t/s |

2.5 单会话交互体验结论

输出长度对昇腾机型冷启动延迟影响极大：

2048 超长输出下 32G 机型冷启动突破 4 秒，初次交互卡顿严重；64G 机型冷启动涨幅可控，热启动不受输出长度影响。

TPOT 解码速度仅由 NPU 算力决定，和单次输出 token 数量无关，同一款机型 1024/2048 负载 TPOT 几乎无变化。
吞吐差距来源：4090 解码速度最优；64G 昇腾次之；32G 昇腾受显存调度开销拖累吞吐最低。

三、集群并发吞吐压测结果（两套负载完整数据）

3.1 机型 A：4×RTX4090（1024Token 负载）

表格

|--------------|-------------------------|-------------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 100.56 | 低并发线性爬坡 |
| 16 | 195.40 | 算力持续拉升 |
| 32 | 359.70 | 线性增长区间 |
| 64 | 621.39 | 线性增长区间 |
| 128 | 1194.38 | 持续上涨 |
| 256 | 2264.69 | 整机性能峰值，显存临界满载 |
| ＞256 | 吞吐断崖下跌，出现任务失败 | KV Cache 内存溢出故障区间 |

核心参数：

峰值吞吐 2264.69 tokens/s，安全稳定并发上限 256。

3.2 机型 B：8× 昇腾 910B4 32G

负载 1：max_tokens=1024

表格

|--------------|-------------------------|--------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 85.96 | 低并发线性爬坡 |
| 16 | 165.95 | 算力稳步拉升 |
| 32 | 310.62 | 线性增长区间 |
| 64 | 596.23 | 线性增长区间 |
| 128 | 896.90 | 增速放缓 |
| 256 | 1099.18 | 持续上行 |
| 512 | 1131.48 | 整机性能峰值 |
| 768 / 1024 | 吞吐小幅回落，无报错 | 整机显存容量受限 |

峰值吞吐：1131.48 tokens/s，峰值并发 512，

全档位 100% 成功率。

负载 2：max_tokens=2048

表格

|--------------|-------------------------|--------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 86.08 | 低并发爬坡 |
| 16 | 165.70 | 稳步拉升 |
| 32 | 318.75 | 线性增长 |
| 64 | 549.37 | 线性增长 |
| 128 | 864.30 | 增速放缓 |
| 256 | 1013.80 | 持续上行 |
| 512 | 1080.49 | 整机峰值 |
| 768 / 1024 | 小幅衰减 | 显存压力上升 |

峰值吞吐：1080.49 tokens/s，峰值并发 512。

3.3 机型 C：8× 昇腾 910B4 64G

负载 1：max_tokens=1024

表格

|--------------|-------------------------|--------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 99.39 | 低并发线性爬坡 |
| 16 | 192.07 | 算力稳步拉升 |
| 32 | 355.51 | 线性增长区间 |
| 64 | 667.61 | 线性增长区间 |
| 128 | 1046.86 | 持续上行 |
| 256 | 1987.78 | 接近算力饱和 |
| 512 | 1985.33 | 高位平稳运行 |
| 768 | 2042.12 | 整机性能峰值 |
| 1024 | 1896.46 | 极轻微衰减，显存余量充足 |

峰值吞吐：2042.12 tokens/s，峰值并发 768。

负载 2：max_tokens=2048（前期实测）

表格

|--------------|-------------------------|--------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 101.08 | 低并发爬坡 |
| 16 | 192.90 | 稳步拉升 |
| 32 | 347.59 | 线性增长 |
| 64 | 572.28 | 线性增长 |
| 128 | 832.79 | 增速放缓 |
| 256 | 950.16 | 持续上行 |
| 512 | 988.02 | 整机峰值 |
| 768 / 1024 | 轻微衰减 | 显存余量充足 |

峰值吞吐：988.02 tokens/s，峰值并发 512。

3.4 整机吞吐与单机承载汇总（分两套负载）

负载 1：统一输出 1024 Token（业务交互标准负载）

表格

|---------------|---------------------|----------------|--------------------|--------------------------------|
| 机型 | 整机峰值吞吐(t/s) | 峰值稳定并发 | 单机瞬时推理任务上限 | 间歇在线 Agent 承载 (10% 活跃) |
| A：4×RTX4090 | 2264.69 | 256 | 90 | 900 |
| B：8×910B4 32G | 1131.48 | 512 | 45 | 450 |
| C：8×910B4 64G | 2042.12 | 768 | 82 | 820 |

负载 2：统一输出 2048 Token（重型超长文本严苛负载）

表格

|---------------|---------------------|----------------|--------------------|--------------------------------|
| 机型 | 整机峰值吞吐(t/s) | 峰值稳定并发 | 单机瞬时推理任务上限 | 间歇在线 Agent 承载 (10% 活跃) |
| A：4×RTX4090 | 1132.35（理论折半） | 256 | 45 | 450 |
| B：8×910B4 32G | 1080.49 | 512 | 43 | 430 |
| C：8×910B4 64G | 988.02 | 512 | 40 | 400 |

四、混合集群整体承载能力测算

集群硬件组合

5 台 84×RTX4090 + 1 台 8× 昇腾 910B4-32G + 4 台 8× 昇腾 910B4-64G

4.1 标准交互负载（1024Token）

集群全局瞬时并行推理总上限 5×90 + 1×45 + 4×82 = 823 条同时运行推理任务
业务承载规模

日常平稳交互：823 ÷ 0.1 = 8230 名在线 Agent 客户端推荐安全运营上限：7000 人
极端批量突刺同步推理：极限承载 823 人

4.2 重型超长文本负载（2048Token）

集群全局瞬时并行推理总上限 5×45 + 1×43 + 4×40 = 225 + 43 + 160 = 428 条
业务承载规模

日常平稳重型 Agent 在线：428 ÷ 0.1 = 4280 人
全量同步批量推理极限：428 人

五、三类机型优劣势完整对比

A：8×RTX4090

优势

冷热启动延迟统一极低，交互式对话用户体验最优；
CUDA 与 vLLM 原生深度适配，同等 1024Token 负载下单机峰值吞吐最高；
CUDA 生态工具完善，监控、调试、运维配套工具丰富，技术落地门槛低。

劣势

整机显存容量小，256 并发为硬性安全红线，超过负载后吞吐直接断崖下跌；
2048 超长输出负载下显存瓶颈放大，承载能力直接减半；
不属于国产自主算力，不满足信创项目准入要求。

B：8× 昇腾 910B4 32G

优势

国产自主算力硬件，符合信创项目合规准入标准；
整机显存容量远高于 RTX4090，安全并发上限提升至 512，无断崖式性能崩盘风险；
两套输出负载下吞吐衰减幅度平缓，中等批量场景稳定性优于 4090；
单机算力密度高，可承接中等规模批量推理任务，适合作为集群补充算力节点。

劣势

单卡显存偏小，2048 超长上下文全新会话冷启动延迟突破 4 秒，初次交互卡顿极其明显；
Token 单步解码速度弱于另外两款机型，两套负载下单会话空载吞吐均最低；
768、1024 超高并发下显存资源不足，集群吞吐出现明显回落；
vLLM-Ascend 适配存在专项调优成本，运维学习门槛高于 CUDA 架构。

C：8× 昇腾 910B4 64G

优势

整机超大容量 HBM 显存，两套输出负载下高并发显存余量充足，1024 并发仅轻微性能衰减；
热启动延迟不受输出长度影响，多轮连续对话交互流畅；
可长期驻留海量超长上下文 KV Cache，适配 7×24 小时不间断批量推理业务；
国产自主算力底座，满足信创项目合规要求，是大批量推理业务核心算力节点。

劣势

全新 2048Token 超长上下文冷启动延迟仍显著高于 RTX4090，纯前台实时交互体验存在差距；
vLLM-Ascend 推理框架适配需要专项技术培训，运维存在学习成本。

六、分业务场景硬件选型方案

场景 1：纯前台交互式 Agent、中小并发、输出长度固定 1024Token、无信创需求

优先选用：8×RTX4090 服务器

管控策略：单机 Nginx 限流 256 并发，单台服务器在线 Agent 不超过 900 个。

场景 2：信创项目、中等批量业务，输出存在 1024/2048 混合长度

优先选用：8× 昇腾 910B4 32G 机型

优化策略：业务侧尽量统一输出 1024Token 释放算力；网关层单机限流 512 并发。

场景 3：千级超高并发、7×24 小时离线批量文档、大量 2048 超长输出、信创核心底座

优先选用：8× 昇腾 910B4 64G 服务器

核心价值：超大显存兼顾长短输出负载，高并发稳定无明显衰减，作为混合集群兜底算力。

混合集群流量调度分配（5 台 4090+1 台 32G 昇腾 + 4 台 64G 昇腾）

5 台 8×RTX4090：专供前台 1024 短输出实时交互客户，保障低延迟体验；
4 台 8× 昇腾 910B4 64G：集群核心算力，承接 2048 超长文本批量推理、定时离线任务；
1 台 8× 昇腾 910B4 32G：弹性补充算力，承接研发测试、临时中等批量任务。

七、综合测试总结

交互延迟维度：RTX4090 全程最优；64G 昇腾长短输出冷热启动均衡；32G 昇腾在 2048 超长全新会话下卡顿严重，不适合强实时对话场景。
吞吐负载影响：单次输出 token 数量翻倍，所有机型整机峰值吞吐接近减半；显存越小的机型，吞吐衰减与延迟涨幅越剧烈。
高并发稳定性维度：8×910B4 64G ＞ 8×910B4 32G ＞ 8×RTX4090；RTX4090 显存上限低，超长文本批量场景极易触发性能崩盘。
国产化合规维度：两款昇腾机型满足信创准入，RTX4090 无法用于政务、央企、国企信创项目。
集群承载结论：
- 常规 1024Token 交互业务：整套集群稳定承载 8230 名在线 Agent；
- 重型 2048 超长文本业务：整套集群稳定承载 4280 名在线 Agent；
落地选型建议：混合集群搭配可兼顾实时交互体验、国产化合规、长短文本批量算力兜底，适配政企私有化 Agent 全场景交付。