大语言模型参数指标详解

(这张图是AI生成的,看着还行~)

1. TTFT (首Tokens时延,Time to First Token)

TTFT 指的是用户发起请求到模型返回第一个 Token 所需的时间,直接影响用户对响应速度的感知,特别是在流式输出场景(如对话 AI)中至关重要。

影响因素:

  • 模型推理时间:复杂度越高,首 Token 生成时间越长

  • 计算资源:高性能 GPU/TPU 可减少计算时延

  • 网络延迟:传输和 API 调用的延迟会影响 TTFT

  • 批处理(Batch Size):单个请求的计算资源分配会影响 TTFT

2. E2E Latency (端到端时延,End-to-End Latency)

E2E Latency 指从请求发送到完整接收所有输出 Token 的总耗时,包括网络传输、计算、序列生成等全流程。

计算方式:

端到端时延 = 首 Token 时延(TTFT)+ 后续 Token 生成总时间

影响因素:

  • 模型计算开销:影响整体生成速度

  • 流式 vs. 非流式:流式输出可以降低感知延迟

  • 并行计算能力:影响批量请求处理效率

3. TPOT(Time Per Output Token)

TPOT 表示模型生成单个 Token 的平均耗时,反映持续输出的效率。

计算方式:

TPOT = 总生成时间 / 输出 Token 数量

影响因素:

  • 硬件计算能力:影响 Token 生成速度

  • 序列长度:长文本可能增加计算复杂度

  • 优化策略:如 KV Cache 可减少计算冗余

4. ITL(Token 延时,Inter-Token Latency)

ITL 指的是生成每个 Token 的实际间隔时间,通常因模型复杂度或硬件负载波动而变化。

与 TPOT 的区别:

  • TPOT 是所有 Token 的平均生成时间

  • ITL 关注单步生成的实时波动

影响因素:

  • 负载波动:计算资源占用变化可能导致 ITL 不稳定

  • Token 依赖:不同上下文对 Token 生成时间有影响

5. 吞吐(Throughput)

吞吐量指的是单位时间内系统处理的 Token 总数(如 Tokens/秒)

关键指标:

  1. Request Throughput (req/s):每秒处理的请求数

    • 计算方式:总请求数 / 运行时间

    • 应用场景:高并发 API 服务

  2. Input Token Throughput (tok/s):每秒处理的输入 Token 数量

    • 计算方式:输入 Token 总数 / 运行时间

    • 应用场景:长文本解析、大模型输入

  3. Output Token Throughput (tok/s):每秒生成的输出 Token 数量

    • 计算方式:输出 Token 总数 / 运行时间

    • 应用场景:文本生成、对话 AI

  4. Total Token Throughput (tok/s):总吞吐量

    • 计算方式:(输入+输出 Token 总数)/ 运行时间

    • 应用场景:端到端流水线性能评估

影响因素:

  • 计算硬件:GPU/TPU 并行能力直接影响吞吐量

  • 批处理(Batch Size):较大批次可提高吞吐量,但可能影响时延

  • 模型优化:如混合精度计算(FP8、FP16)可提升性能

6. 流式场景与非流式场景

流式场景(Streaming)

流式输出指数据以连续的小块形式实时传输,生成后立即发送,客户端可逐步接收,实现低延迟响应。

特点
  • 低延迟 :TTFT 需优化至 < 300ms

  • 适用于实时应用

    • 实时聊天(如 ChatGPT)

    • 语音识别(如智能助理)

    • 视频会议字幕生成

  • 挑战

    • 平衡 TTFT 和 TPOT

    • 需优化网络传输以减少传输延迟

非流式场景(Batch Processing)

非流式任务指数据整体传输,处理完成后一次性返回,适用于批量分析或静态内容生成。

特点
  • 整体处理效率更高

  • 适用于大规模数据处理

    • 文档摘要生成

    • 大规模语音转文本

    • 离线数据仓库分析

  • 优化策略

    • 增大 Batch Size 提升吞吐(可达 10k tok/s 以上)

    • 采用 GPU 并行计算降低总处理时间

7. 优化

  • 降低 TTFT:预加载模型参数、优化 KV Cache

  • 优化 TPOT:减少不必要计算,调整批次大小

  • 提升吞吐:使用高效的 GPU/TPU 并行计算,优化计算图

  • 流式 vs. 非流式权衡

    • 流式适用于低延迟需求,如对话 AI

    • 非流式适用于批量处理,如离线分析

8. 总结

指标 计算方式 影响因素 适用场景
TTFT 请求到首 Token 响应时间 计算资源、网络延迟 流式场景(如对话 AI)
E2E Latency 请求到完整输出总时间 模型计算、网络传输 端到端应用
TPOT 总生成时间 / 输出 Token 数 硬件计算能力、优化策略 持续输出任务(如文章生成)
ITL Token 生成间隔时间 负载波动、Token 依赖 实时 Token 生成分析
吞吐 每秒处理 Token 数 GPU 并行、Batch Size 高吞吐任务(如 API 服务)
流式 持续 Token 生成 低延迟优化 实时交互
非流式 计算完成后一次性输出 高吞吐优化 批量处理

style="display: none !important;">

相关推荐
格林威14 小时前
AOI在风电行业制造领域中的应用
人工智能·数码相机·计算机视觉·视觉检测·制造·机器视觉·aoi
大千AI助手14 小时前
Graph-R1:智能图谱检索增强的结构化多轮推理框架
人工智能·神经网络·大模型·rag·检索增强生成·大千ai助手·graph-r1
瑞禧生物ruixibio14 小时前
ABA-Biotin,脱落酸-生物素,用于追踪ABA在植物细胞中的分布及运输路径
人工智能
哔哩哔哩技术14 小时前
B站基础安全在AI溯源方向的探索实践
人工智能
IT_陈寒14 小时前
7个鲜为人知的JavaScript性能优化技巧,让你的网页加载速度提升50%
前端·人工智能·后端
城数派14 小时前
1951-2100年全球复合极端气候事件数据集
人工智能·数据分析
NON-JUDGMENTAL15 小时前
在 Ubuntu 上安装 Ollama 并通过 Open WebUI 运行本地大语言模型
linux·ubuntu·语言模型
Hody9115 小时前
【XR硬件系列】夸克 AI 眼镜预售背后:阿里用 “硬件尖刀 + 生态护城河“ 重构智能穿戴逻辑
人工智能·重构
Icoolkj15 小时前
RAGFlow与Dify知识库:对比选型与技术落地解析
人工智能
终端域名15 小时前
转折·融合·重构——2025十大新兴技术驱动系统变革与全球挑战应对
人工智能·重构