我们看一份报告的时候主要看什么

|--------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------|
| | |

这是使用vllm里面的压测脚本测试出来的数据,并发量分别为20和1


1. 核心指标解读

在看数据前,先明确三个最关键的指标含义(主要看什么):

  • TTFT (Time to First Token) :首字延迟。从你按下回车到 AI 蹦出第一个字的时间(决定了响应感)。
  • TPOT (Time per Output Token) :写字速度。第一个字出来后,后续每个字的间隔(决定了吐字流畅度)。
  • Total Throughput :总吞吐量。系统每秒钟一共处理了多少个 Token(决定了系统整体效率)。

2. 报告对比:并发 20 vs. 并发 1

我们将两份数据放在一起看:

指标 并发 20 (压测模式) 并发 1 (理想模式) 解读
Total Throughput 4962.95 tok/s 790.48 tok/s 20并发效率更高。因为你一次性喂了 2 万个词(Prefill),把 GPU 算力填满了。
Output Throughput 551.44 tok/s 87.83 tok/s 系统总产出增加。20个人分着写,系统每秒总共能写 551 个词。
Mean TTFT 1289.03 ms (1.2秒) 173.02 ms (0.17秒) 并发越高,排队越久。20个人一起挤,第一个字出来的速度慢了 7.5 倍。
Mean TPOT 17.21 ms 10.11 ms 单人写字变慢了。因为显存压力和任务切换,每个词的间隔从 10ms 增加到了 17ms。

3. 深度拆解:数据背后的硬件博弈

为什么 20 并发的 Total Throughput (4962) 这么高?

这是因为你的测试用例中,输入(Input)远多于输出(Output)

  • 20 并发下,输入 Token 是 20480 个,而输出才 2560 个。
  • GPU 处理这 2 万多个输入时走的是"算力瓶颈",速度极快,把平均分拉上去了。

而如果你是做实时聊天机器人:

  • 173ms 的 TTFT 让用户感觉 AI 是秒回的。
  • 10.11ms 的 TPOT 换算过来大约是 99 tok/s。人类阅读速度大约只有 5-10 tok/s,这意味着 AI 写字的速度远超人类阅读速度,体验极佳。

并发 20 的危险信号:P99 ITL (174.71 ms)

注意看 20 并发报告里的 P99 ITL

  • 虽然平均写字间隔是 17ms,但最慢的情况下(P99),字与字之间卡了 174ms
  • 原因:这说明在多并发下,显存已经非常紧张,系统在搬运 KV Cache 或进行 Swap 交换,导致了明显的卡顿(抖动)。

4. 总结

  1. 单人模式 (并发1) :这台设备是 Qwen2.5-1.5B 的神机。响应极快(173ms),吐字极稳(10ms)。
  2. 多人模式 (并发20):系统被压榨到了极限。虽然总吞吐量 (4962) 看着很爽,但用户体验开始下降(首字要等 1.2 秒以上,且偶尔会卡顿)。
  3. 硬件瓶颈对齐
    • 你的 173ms TTFT 验证了 GPU 算力 没问题。
    • 你的 10.11ms TPOT (99 tok/s) 验证了 显存带宽 是稳定的。
    • 你的 P99 抖动 验证了 显存容量/PCIe 带宽 是高负载下的短板。
相关推荐
江华森20 小时前
操作系统与 Linux 内核实战教程
linux·运维·服务器
旺王雪饼 www20 小时前
localStorage 和 sessionStorage区别与联系
服务器·前端·javascript
xixingzhe220 小时前
AI运维注意点
运维·人工智能
大树8820 小时前
PUE 超 1.35 要多交多少?存量机房液冷改造 3 张算账表
大数据·运维·服务器·人工智能
小此方20 小时前
Re:Linux系统篇(二十八)文件篇·一:理解 Linux 文件基础I/O、Linux 文件操作与系统调用机制
linux·运维·服务器
likerhood21 小时前
Linux 服务器基础资源查看:CPU、GPU、内存、磁盘与一键检测脚本
linux·运维·服务器
极客先躯21 小时前
高级java每日一道面试题-2026年01月19日-实战篇[Docker]-如何配置镜像仓库的垃圾回收 (GC)?
java·运维·docker·容器
AOwhisky21 小时前
学习自测与解析:MySQL 系列第三期与第四期
linux·运维·数据库·学习·mysql·云计算
流浪00121 小时前
Linux系统篇(三):Linux 命令行参数 & 环境变量:程序和系统沟通的底层逻辑
linux·运维·服务器
yyuuuzz21 小时前
AI模型部署中的常见稳定性问题
运维·服务器·网络·数据库·人工智能·云计算·github