大语言模型参数指标详解

(这张图是AI生成的,看着还行~)

1. TTFT (首Tokens时延,Time to First Token)

TTFT 指的是用户发起请求到模型返回第一个 Token 所需的时间,直接影响用户对响应速度的感知,特别是在流式输出场景(如对话 AI)中至关重要。

影响因素:

  • 模型推理时间:复杂度越高,首 Token 生成时间越长

  • 计算资源:高性能 GPU/TPU 可减少计算时延

  • 网络延迟:传输和 API 调用的延迟会影响 TTFT

  • 批处理(Batch Size):单个请求的计算资源分配会影响 TTFT

2. E2E Latency (端到端时延,End-to-End Latency)

E2E Latency 指从请求发送到完整接收所有输出 Token 的总耗时,包括网络传输、计算、序列生成等全流程。

计算方式:

端到端时延 = 首 Token 时延(TTFT)+ 后续 Token 生成总时间

影响因素:

  • 模型计算开销:影响整体生成速度

  • 流式 vs. 非流式:流式输出可以降低感知延迟

  • 并行计算能力:影响批量请求处理效率

3. TPOT(Time Per Output Token)

TPOT 表示模型生成单个 Token 的平均耗时,反映持续输出的效率。

计算方式:

TPOT = 总生成时间 / 输出 Token 数量

影响因素:

  • 硬件计算能力:影响 Token 生成速度

  • 序列长度:长文本可能增加计算复杂度

  • 优化策略:如 KV Cache 可减少计算冗余

4. ITL(Token 延时,Inter-Token Latency)

ITL 指的是生成每个 Token 的实际间隔时间,通常因模型复杂度或硬件负载波动而变化。

与 TPOT 的区别:

  • TPOT 是所有 Token 的平均生成时间

  • ITL 关注单步生成的实时波动

影响因素:

  • 负载波动:计算资源占用变化可能导致 ITL 不稳定

  • Token 依赖:不同上下文对 Token 生成时间有影响

5. 吞吐(Throughput)

吞吐量指的是单位时间内系统处理的 Token 总数(如 Tokens/秒)

关键指标:

  1. Request Throughput (req/s):每秒处理的请求数

    • 计算方式:总请求数 / 运行时间

    • 应用场景:高并发 API 服务

  2. Input Token Throughput (tok/s):每秒处理的输入 Token 数量

    • 计算方式:输入 Token 总数 / 运行时间

    • 应用场景:长文本解析、大模型输入

  3. Output Token Throughput (tok/s):每秒生成的输出 Token 数量

    • 计算方式:输出 Token 总数 / 运行时间

    • 应用场景:文本生成、对话 AI

  4. Total Token Throughput (tok/s):总吞吐量

    • 计算方式:(输入+输出 Token 总数)/ 运行时间

    • 应用场景:端到端流水线性能评估

影响因素:

  • 计算硬件:GPU/TPU 并行能力直接影响吞吐量

  • 批处理(Batch Size):较大批次可提高吞吐量,但可能影响时延

  • 模型优化:如混合精度计算(FP8、FP16)可提升性能

6. 流式场景与非流式场景

流式场景(Streaming)

流式输出指数据以连续的小块形式实时传输,生成后立即发送,客户端可逐步接收,实现低延迟响应。

特点
  • 低延迟 :TTFT 需优化至 < 300ms

  • 适用于实时应用

    • 实时聊天(如 ChatGPT)

    • 语音识别(如智能助理)

    • 视频会议字幕生成

  • 挑战

    • 平衡 TTFT 和 TPOT

    • 需优化网络传输以减少传输延迟

非流式场景(Batch Processing)

非流式任务指数据整体传输,处理完成后一次性返回,适用于批量分析或静态内容生成。

特点
  • 整体处理效率更高

  • 适用于大规模数据处理

    • 文档摘要生成

    • 大规模语音转文本

    • 离线数据仓库分析

  • 优化策略

    • 增大 Batch Size 提升吞吐(可达 10k tok/s 以上)

    • 采用 GPU 并行计算降低总处理时间

7. 优化

  • 降低 TTFT:预加载模型参数、优化 KV Cache

  • 优化 TPOT:减少不必要计算,调整批次大小

  • 提升吞吐:使用高效的 GPU/TPU 并行计算,优化计算图

  • 流式 vs. 非流式权衡

    • 流式适用于低延迟需求,如对话 AI

    • 非流式适用于批量处理,如离线分析

8. 总结

指标 计算方式 影响因素 适用场景
TTFT 请求到首 Token 响应时间 计算资源、网络延迟 流式场景(如对话 AI)
E2E Latency 请求到完整输出总时间 模型计算、网络传输 端到端应用
TPOT 总生成时间 / 输出 Token 数 硬件计算能力、优化策略 持续输出任务(如文章生成)
ITL Token 生成间隔时间 负载波动、Token 依赖 实时 Token 生成分析
吞吐 每秒处理 Token 数 GPU 并行、Batch Size 高吞吐任务(如 API 服务)
流式 持续 Token 生成 低延迟优化 实时交互
非流式 计算完成后一次性输出 高吞吐优化 批量处理

style="display: none !important;">

相关推荐
蚝油菜花6 分钟前
OpenDeepSearch:搜索引擎革命!这个开源深度搜索工具让AI代理直接读懂网页,复杂问题一键拆解
人工智能·开源
蚝油菜花8 分钟前
Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研
人工智能·开源
Lx35211 分钟前
📖《数字人开发手册:从建模到情感交互全链路》
人工智能
rocksun12 分钟前
什么是AI原生开发者?
人工智能
Kai HVZ15 分钟前
《深度学习》——yolov4详解
人工智能·深度学习·yolo
EMQX15 分钟前
MCP over MQTT:EMQX 开启物联网 Agentic 时代
人工智能·后端
掘金安东尼15 分钟前
MCP:大模型落地的关键路径 —— 程序员的新机会
人工智能·面试
s1ckrain15 分钟前
【论文阅读】VideoMerge: Towards Training-free Long Video Generation
论文阅读·人工智能·计算机视觉
oioihoii20 分钟前
小白入门机器学习概述
人工智能·机器学习
秩序之狐32 分钟前
基于机器学习的齿音识别
人工智能·机器学习