Agent 后台 - Token工场-集群设备配置建议

8×RTX4090 / 8× 昇腾 910B4-32G / 8× 昇腾 910B4-64G

长文本 Agent 性能综合对比测试报告

基础测试说明

  1. 测试模型:qwen3.6-27b-w8a8(W8A8 量化-华为910B4)

qwen3.6-27b-awq(AWQ量化-英伟达4090)

  1. 统一输入上下文:12000 Token 超长 Agent 调度上下文(工具链 + 多轮对话历史)
  2. 两套输出负载标准:

负载 1:max_tokens=1024(对齐 4090 原始测试,公平横向对比)

负载 2:max_tokens=2048(重型超长文本 Agent 严苛负载)

  1. 单机部署架构:4 组 vLLM 推理实例(8000/8001/8002/8003)+ Nginx 负载均衡

API 鉴权统一:sk-qwen-27b-w8a8-2026

并发测试档位统一:8/16/32/64/128/256/512/768/1024/2048

  1. 业务测算基准:

重型长文本 Agent 单次推理消耗 25 tokens/s;线上用户间歇交互,推理活跃占比 10%(90% 在线空闲)

测试日期:2026.06.13

一、硬件基础规格对照表

表格

|--------------|-----------------|--------------|---------------|--------------|
| 机型标识 | 硬件配置 | 单卡显存 | 整机总显存 | 算力属性 |
| A | 8×RTX4090 | 24GB GDDR6X | 192GB | 通用 CUDA 商业算力 |
| B | 8× 昇腾 910B4 32G | 32GB HBM | 256GB | 国产信创昇腾算力 |
| C | 8× 昇腾 910B4 64G | 64GB HBM | 512GB | 国产信创昇腾算力 |

  • 单 Agent 流式延迟测试

(5 轮实测,分 1024/2048 两套负载)

2.1 机型 A:8×RTX4090(仅 1024Token 负载)

  • TTFT 均值:152.81ms
  • TPOT 均值:74.96ms
  • 单会话平均吞吐:13.31 tokens/s
  • 特征:无冷热启动区分,首次响应速度最优

2.2 机型 B:8× 昇腾 910B4-32G

负载 1:max_tokens=1024(本次全新实测)

表格

|------------|-------------------|-----------------|-----------------|--------------------|
| 轮次 | 生成 tokens | ttft_ms | tpot_ms | 单路吞吐 (t/s) |
| 1 | 1024 | 1225.38 | 86.79 | 11.36 |
| 2 | 1024 | 1255.83 | 87.24 | 11.30 |
| 3 | 1024 | 1245.89 | 86.13 | 11.45 |
| 4 | 1024 | 1225.61 | 85.51 | 11.53 |
| 5 | 1024 | 657.09 | 86.56 | 11.47 |

汇总:

冷启动 TTFT 均值 (前 4 轮):1238.18ms

热启动 TTFT:657.09ms

TPOT 均值:86.45ms

单会话平均吞吐:11.42 tokens/s

负载 2:max_tokens=2048

5 轮原始指标:

1 轮:tokens=2048, ttft=4161.12ms, tpot=87.10ms, tp=11.22

2 轮:tokens=2048, ttft=4159.15ms, tpot=86.32ms, tp=11.32

3 轮:tokens=2048, ttft=1250.59ms, tpot=86.46ms, tp=11.48

4 轮:tokens=2048, ttft=630.91ms, tpot=86.94ms, tp=11.46

5 轮:tokens=2048, ttft=620.56ms, tpot=86.99ms, tp=11.46

汇总:

冷启动 TTFT 均值 (前 2 轮):4160.14ms

热启动 TTFT 均值 (后 3 轮):834.02ms

TPOT 均值:86.76ms

单会话平均吞吐:11.39 tokens/s

2.3 机型 C:8× 昇腾 910B4-64G

负载 1:max_tokens=1024

冷启动 TTFT 预估:≈900ms

热启动 TTFT:253.84ms

TPOT 均值:78.49ms 单会话平均吞吐:12.66 tokens/s

负载 2:max_tokens=2048

冷启动 TTFT 均值:1382ms
热启动 TTFT 均值:253.84ms

TPOT 均值:78.49ms

单会话平均吞吐:12.66 tokens/s

2.4 单会话指标横向总表(双负载合并)

表格

|-----------------|--------------------------------|----------------------------------|----------------------------------|
| 性能指标 | A:8×RTX4090(1024Token) | B:8×910B4 32G1024 / 2048 | C:8×910B4 64G1024 / 2048 |
| 整机显存 | 192GB GDDR6X | 256GB HBM | 512GB HBM |
| 冷启动 TTFT 均值 | 152.81ms | 1238.18ms / 4160.14ms | ≈900ms / 1382ms |
| 热启动 TTFT | 152.81ms | 657.09ms / 834.02ms | 253.84ms / 253.84ms |
| TPOT 单 Token 间隔 | 74.96ms | 86.45ms / 86.76ms | 78.49ms / 78.49ms |
| 单会话空载吞吐 | 13.31 t/s | 11.42 t/s / 11.39 t/s | 12.66 t/s / 12.66 t/s |

2.5 单会话交互体验结论

  1. 输出长度对昇腾机型冷启动延迟影响极大:

2048 超长输出下 32G 机型冷启动突破 4 秒,初次交互卡顿严重;64G 机型冷启动涨幅可控,热启动不受输出长度影响。

  1. TPOT 解码速度仅由 NPU 算力决定,和单次输出 token 数量无关,同一款机型 1024/2048 负载 TPOT 几乎无变化。
  2. 吞吐差距来源:4090 解码速度最优;64G 昇腾次之;32G 昇腾受显存调度开销拖累吞吐最低。

三、集群并发吞吐压测结果(两套负载完整数据)

3.1 机型 A:4×RTX4090(1024Token 负载)

表格

|--------------|-------------------------|-------------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 100.56 | 低并发线性爬坡 |
| 16 | 195.40 | 算力持续拉升 |
| 32 | 359.70 | 线性增长区间 |
| 64 | 621.39 | 线性增长区间 |
| 128 | 1194.38 | 持续上涨 |
| 256 | 2264.69 | 整机性能峰值,显存临界满载 |
| >256 | 吞吐断崖下跌,出现任务失败 | KV Cache 内存溢出故障区间 |

核心参数:

峰值吞吐 2264.69 tokens/s,安全稳定并发上限 256。

3.2 机型 B:8× 昇腾 910B4 32G

负载 1:max_tokens=1024

表格

|--------------|-------------------------|--------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 85.96 | 低并发线性爬坡 |
| 16 | 165.95 | 算力稳步拉升 |
| 32 | 310.62 | 线性增长区间 |
| 64 | 596.23 | 线性增长区间 |
| 128 | 896.90 | 增速放缓 |
| 256 | 1099.18 | 持续上行 |
| 512 | 1131.48 | 整机性能峰值 |
| 768 / 1024 | 吞吐小幅回落,无报错 | 整机显存容量受限 |

峰值吞吐:1131.48 tokens/s,峰值并发 512,

全档位 100% 成功率。

负载 2:max_tokens=2048

表格

|--------------|-------------------------|--------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 86.08 | 低并发爬坡 |
| 16 | 165.70 | 稳步拉升 |
| 32 | 318.75 | 线性增长 |
| 64 | 549.37 | 线性增长 |
| 128 | 864.30 | 增速放缓 |
| 256 | 1013.80 | 持续上行 |
| 512 | 1080.49 | 整机峰值 |
| 768 / 1024 | 小幅衰减 | 显存压力上升 |

峰值吞吐:1080.49 tokens/s,峰值并发 512。

3.3 机型 C:8× 昇腾 910B4 64G

负载 1:max_tokens=1024

表格

|--------------|-------------------------|--------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 99.39 | 低并发线性爬坡 |
| 16 | 192.07 | 算力稳步拉升 |
| 32 | 355.51 | 线性增长区间 |
| 64 | 667.61 | 线性增长区间 |
| 128 | 1046.86 | 持续上行 |
| 256 | 1987.78 | 接近算力饱和 |
| 512 | 1985.33 | 高位平稳运行 |
| 768 | 2042.12 | 整机性能峰值 |
| 1024 | 1896.46 | 极轻微衰减,显存余量充足 |

峰值吞吐:2042.12 tokens/s,峰值并发 768。

负载 2:max_tokens=2048(前期实测)

表格

|--------------|-------------------------|--------------|
| 并发档位 | 集群吞吐 (tokens/s) | 运行状态 |
| 8 | 101.08 | 低并发爬坡 |
| 16 | 192.90 | 稳步拉升 |
| 32 | 347.59 | 线性增长 |
| 64 | 572.28 | 线性增长 |
| 128 | 832.79 | 增速放缓 |
| 256 | 950.16 | 持续上行 |
| 512 | 988.02 | 整机峰值 |
| 768 / 1024 | 轻微衰减 | 显存余量充足 |

峰值吞吐:988.02 tokens/s,峰值并发 512。

3.4 整机吞吐与单机承载汇总(分两套负载)

负载 1:统一输出 1024 Token(业务交互标准负载)

表格

|---------------|---------------------|----------------|--------------------|--------------------------------|
| 机型 | 整机峰值吞吐(t/s) | 峰值稳定并发 | 单机瞬时推理任务上限 | 间歇在线 Agent 承载 (10% 活跃) |
| A:4×RTX4090 | 2264.69 | 256 | 90 | 900 |
| B:8×910B4 32G | 1131.48 | 512 | 45 | 450 |
| C:8×910B4 64G | 2042.12 | 768 | 82 | 820 |

负载 2:统一输出 2048 Token(重型超长文本严苛负载)

表格

|---------------|---------------------|----------------|--------------------|--------------------------------|
| 机型 | 整机峰值吞吐(t/s) | 峰值稳定并发 | 单机瞬时推理任务上限 | 间歇在线 Agent 承载 (10% 活跃) |
| A:4×RTX4090 | 1132.35(理论折半) | 256 | 45 | 450 |
| B:8×910B4 32G | 1080.49 | 512 | 43 | 430 |
| C:8×910B4 64G | 988.02 | 512 | 40 | 400 |

四、混合集群整体承载能力测算

集群硬件组合

5 台 84×RTX4090 + 1 台 8× 昇腾 910B4-32G + 4 台 8× 昇腾 910B4-64G

4.1 标准交互负载(1024Token)

  1. 集群全局瞬时并行推理总上限 5×90 + 1×45 + 4×82 = 823 条同时运行推理任务
  2. 业务承载规模
  • 日常平稳交互:823 ÷ 0.1 = 8230 名在线 Agent 客户端 推荐安全运营上限:7000 人
  • 极端批量突刺同步推理:极限承载 823 人

4.2 重型超长文本负载(2048Token)

  1. 集群全局瞬时并行推理总上限 5×45 + 1×43 + 4×40 = 225 + 43 + 160 = 428 条
  2. 业务承载规模
  • 日常平稳重型 Agent 在线:428 ÷ 0.1 = 4280 人
  • 全量同步批量推理极限:428 人

五、三类机型优劣势完整对比

A:8×RTX4090

优势

  1. 冷热启动延迟统一极低,交互式对话用户体验最优;
  2. CUDA 与 vLLM 原生深度适配,同等 1024Token 负载下单机峰值吞吐最高;
  3. CUDA 生态工具完善,监控、调试、运维配套工具丰富,技术落地门槛低。

劣势

  1. 整机显存容量小,256 并发为硬性安全红线,超过负载后吞吐直接断崖下跌;
  2. 2048 超长输出负载下显存瓶颈放大,承载能力直接减半;
  3. 不属于国产自主算力,不满足信创项目准入要求。

B:8× 昇腾 910B4 32G

优势

  1. 国产自主算力硬件,符合信创项目合规准入标准;
  2. 整机显存容量远高于 RTX4090,安全并发上限提升至 512,无断崖式性能崩盘风险;
  3. 两套输出负载下吞吐衰减幅度平缓,中等批量场景稳定性优于 4090;
  4. 单机算力密度高,可承接中等规模批量推理任务,适合作为集群补充算力节点。

劣势

  1. 单卡显存偏小,2048 超长上下文全新会话冷启动延迟突破 4 秒,初次交互卡顿极其明显;
  2. Token 单步解码速度弱于另外两款机型,两套负载下单会话空载吞吐均最低;
  3. 768、1024 超高并发下显存资源不足,集群吞吐出现明显回落;
  4. vLLM-Ascend 适配存在专项调优成本,运维学习门槛高于 CUDA 架构。

C:8× 昇腾 910B4 64G

优势

  1. 整机超大容量 HBM 显存,两套输出负载下高并发显存余量充足,1024 并发仅轻微性能衰减;
  2. 热启动延迟不受输出长度影响,多轮连续对话交互流畅;
  3. 可长期驻留海量超长上下文 KV Cache,适配 7×24 小时不间断批量推理业务;
  4. 国产自主算力底座,满足信创项目合规要求,是大批量推理业务核心算力节点。

劣势

  1. 全新 2048Token 超长上下文冷启动延迟仍显著高于 RTX4090,纯前台实时交互体验存在差距;
  2. vLLM-Ascend 推理框架适配需要专项技术培训,运维存在学习成本。

六、分业务场景硬件选型方案

场景 1:纯前台交互式 Agent、中小并发、输出长度固定 1024Token、无信创需求

优先选用:8×RTX4090 服务器

管控策略:单机 Nginx 限流 256 并发,单台服务器在线 Agent 不超过 900 个。

场景 2:信创项目、中等批量业务,输出存在 1024/2048 混合长度

优先选用:8× 昇腾 910B4 32G 机型

优化策略:业务侧尽量统一输出 1024Token 释放算力;网关层单机限流 512 并发。

场景 3:千级超高并发、7×24 小时离线批量文档、大量 2048 超长输出、信创核心底座

优先选用:8× 昇腾 910B4 64G 服务器

核心价值:超大显存兼顾长短输出负载,高并发稳定无明显衰减,作为混合集群兜底算力。

混合集群流量调度分配(5 台 4090+1 台 32G 昇腾 + 4 台 64G 昇腾)

  1. 5 台 8×RTX4090:专供前台 1024 短输出实时交互客户,保障低延迟体验;
  2. 4 台 8× 昇腾 910B4 64G:集群核心算力,承接 2048 超长文本批量推理、定时离线任务;
  3. 1 台 8× 昇腾 910B4 32G:弹性补充算力,承接研发测试、临时中等批量任务。

七、综合测试总结

  1. 交互延迟维度:RTX4090 全程最优;64G 昇腾长短输出冷热启动均衡;32G 昇腾在 2048 超长全新会话下卡顿严重,不适合强实时对话场景。
  2. 吞吐负载影响:单次输出 token 数量翻倍,所有机型整机峰值吞吐接近减半;显存越小的机型,吞吐衰减与延迟涨幅越剧烈。
  3. 高并发稳定性维度:8×910B4 64G > 8×910B4 32G > 8×RTX4090;RTX4090 显存上限低,超长文本批量场景极易触发性能崩盘。
  4. 国产化合规维度:两款昇腾机型满足信创准入,RTX4090 无法用于政务、央企、国企信创项目。
  5. 集群承载结论:
    • 常规 1024Token 交互业务:整套集群稳定承载 8230 名在线 Agent;
    • 重型 2048 超长文本业务:整套集群稳定承载 4280 名在线 Agent;
  6. 落地选型建议:混合集群搭配可兼顾实时交互体验、国产化合规、长短文本批量算力兜底,适配政企私有化 Agent 全场景交付。
相关推荐
a15108416932 小时前
记一次大模型探索
java·服务器·前端
中云DDoS CC防护蔡蔡2 小时前
游戏杀手- ACCN
运维·服务器·经验分享·网络安全·ddos
无限进步_2 小时前
【Linux】系统级文件I/O与文件描述符深度剖析
linux·运维·服务器
小陈phd2 小时前
LCEL(LangChain Expression Language)语法全解
服务器·网络·langchain
ctrl_v助手2 小时前
VisionPro (R) QuickBuild相机的连接
服务器·笔记·数码相机·c#
by————组态3 小时前
Ricon组态技术架构 - 企业级Web组态解决方案
运维·服务器·前端·物联网·架构·组态·组态软件
CHINA红旗下4 小时前
固定虚拟机的IP地址
运维·服务器·网络
DO_Community4 小时前
百亿参数开源模型托管成本账:从按 Token 计费到单卡 GPU 服务器怎么选?
运维·服务器·开源·llm·agent
the sun344 小时前
集群架构实操:MySQL主、从节点配置
运维·服务器