大语言模型参数指标详解

(这张图是AI生成的,看着还行~)

1. TTFT (首Tokens时延,Time to First Token)

TTFT 指的是用户发起请求到模型返回第一个 Token 所需的时间,直接影响用户对响应速度的感知,特别是在流式输出场景(如对话 AI)中至关重要。

影响因素:

  • 模型推理时间:复杂度越高,首 Token 生成时间越长

  • 计算资源:高性能 GPU/TPU 可减少计算时延

  • 网络延迟:传输和 API 调用的延迟会影响 TTFT

  • 批处理(Batch Size):单个请求的计算资源分配会影响 TTFT

2. E2E Latency (端到端时延,End-to-End Latency)

E2E Latency 指从请求发送到完整接收所有输出 Token 的总耗时,包括网络传输、计算、序列生成等全流程。

计算方式:

端到端时延 = 首 Token 时延(TTFT)+ 后续 Token 生成总时间

影响因素:

  • 模型计算开销:影响整体生成速度

  • 流式 vs. 非流式:流式输出可以降低感知延迟

  • 并行计算能力:影响批量请求处理效率

3. TPOT(Time Per Output Token)

TPOT 表示模型生成单个 Token 的平均耗时,反映持续输出的效率。

计算方式:

TPOT = 总生成时间 / 输出 Token 数量

影响因素:

  • 硬件计算能力:影响 Token 生成速度

  • 序列长度:长文本可能增加计算复杂度

  • 优化策略:如 KV Cache 可减少计算冗余

4. ITL(Token 延时,Inter-Token Latency)

ITL 指的是生成每个 Token 的实际间隔时间,通常因模型复杂度或硬件负载波动而变化。

与 TPOT 的区别:

  • TPOT 是所有 Token 的平均生成时间

  • ITL 关注单步生成的实时波动

影响因素:

  • 负载波动:计算资源占用变化可能导致 ITL 不稳定

  • Token 依赖:不同上下文对 Token 生成时间有影响

5. 吞吐(Throughput)

吞吐量指的是单位时间内系统处理的 Token 总数(如 Tokens/秒)

关键指标:

  1. Request Throughput (req/s):每秒处理的请求数

    • 计算方式:总请求数 / 运行时间

    • 应用场景:高并发 API 服务

  2. Input Token Throughput (tok/s):每秒处理的输入 Token 数量

    • 计算方式:输入 Token 总数 / 运行时间

    • 应用场景:长文本解析、大模型输入

  3. Output Token Throughput (tok/s):每秒生成的输出 Token 数量

    • 计算方式:输出 Token 总数 / 运行时间

    • 应用场景:文本生成、对话 AI

  4. Total Token Throughput (tok/s):总吞吐量

    • 计算方式:(输入+输出 Token 总数)/ 运行时间

    • 应用场景:端到端流水线性能评估

影响因素:

  • 计算硬件:GPU/TPU 并行能力直接影响吞吐量

  • 批处理(Batch Size):较大批次可提高吞吐量,但可能影响时延

  • 模型优化:如混合精度计算(FP8、FP16)可提升性能

6. 流式场景与非流式场景

流式场景(Streaming)

流式输出指数据以连续的小块形式实时传输,生成后立即发送,客户端可逐步接收,实现低延迟响应。

特点
  • 低延迟 :TTFT 需优化至 < 300ms

  • 适用于实时应用

    • 实时聊天(如 ChatGPT)

    • 语音识别(如智能助理)

    • 视频会议字幕生成

  • 挑战

    • 平衡 TTFT 和 TPOT

    • 需优化网络传输以减少传输延迟

非流式场景(Batch Processing)

非流式任务指数据整体传输,处理完成后一次性返回,适用于批量分析或静态内容生成。

特点
  • 整体处理效率更高

  • 适用于大规模数据处理

    • 文档摘要生成

    • 大规模语音转文本

    • 离线数据仓库分析

  • 优化策略

    • 增大 Batch Size 提升吞吐(可达 10k tok/s 以上)

    • 采用 GPU 并行计算降低总处理时间

7. 优化

  • 降低 TTFT:预加载模型参数、优化 KV Cache

  • 优化 TPOT:减少不必要计算,调整批次大小

  • 提升吞吐:使用高效的 GPU/TPU 并行计算,优化计算图

  • 流式 vs. 非流式权衡

    • 流式适用于低延迟需求,如对话 AI

    • 非流式适用于批量处理,如离线分析

8. 总结

指标 计算方式 影响因素 适用场景
TTFT 请求到首 Token 响应时间 计算资源、网络延迟 流式场景(如对话 AI)
E2E Latency 请求到完整输出总时间 模型计算、网络传输 端到端应用
TPOT 总生成时间 / 输出 Token 数 硬件计算能力、优化策略 持续输出任务(如文章生成)
ITL Token 生成间隔时间 负载波动、Token 依赖 实时 Token 生成分析
吞吐 每秒处理 Token 数 GPU 并行、Batch Size 高吞吐任务(如 API 服务)
流式 持续 Token 生成 低延迟优化 实时交互
非流式 计算完成后一次性输出 高吞吐优化 批量处理

style="display: none !important;">

相关推荐
whaosoft-14310 分钟前
w~视觉~3D~合集2
人工智能
云山工作室34 分钟前
基于单片机的温湿度采集系统(论文+源码)
人工智能·单片机·嵌入式硬件·毕业设计·毕设
www_pp_35 分钟前
# 基于PyTorch的食品图像分类系统:从训练到部署全流程指南
人工智能·pytorch·分类
MorleyOlsen39 分钟前
【数字图像处理】立体视觉基础(1)
图像处理·人工智能·计算机视觉
watersink44 分钟前
大语言模型的训练、微调及压缩技术
人工智能·语言模型·自然语言处理
爱的叹息1 小时前
AI推荐系统的详细解析 +推荐系统中滤泡效应(Filter Bubble)的详细解析+ 基于Java构建电商推荐系统的分步实现方案,结合机器学习与工程实践
java·人工智能·机器学习
IT古董1 小时前
【漫话机器学习系列】211.驻点(Stationary Points)
人工智能·机器学习
结冰架构1 小时前
【AI提示词】投资策略专家
大数据·人工智能·ai·提示词·专家
山海青风1 小时前
智能体(Intelligent Agents)入门自学教程 3 简单反射型智能体(Reactive Agents)
人工智能·python
安全方案1 小时前
2025大模型十大安全威胁(OWASP TOP 10 LLM 2025).pdf
人工智能·安全·pdf