大语言模型参数指标详解

(这张图是AI生成的,看着还行~)

1. TTFT (首Tokens时延,Time to First Token)

TTFT 指的是用户发起请求到模型返回第一个 Token 所需的时间,直接影响用户对响应速度的感知,特别是在流式输出场景(如对话 AI)中至关重要。

影响因素:

  • 模型推理时间:复杂度越高,首 Token 生成时间越长

  • 计算资源:高性能 GPU/TPU 可减少计算时延

  • 网络延迟:传输和 API 调用的延迟会影响 TTFT

  • 批处理(Batch Size):单个请求的计算资源分配会影响 TTFT

2. E2E Latency (端到端时延,End-to-End Latency)

E2E Latency 指从请求发送到完整接收所有输出 Token 的总耗时,包括网络传输、计算、序列生成等全流程。

计算方式:

端到端时延 = 首 Token 时延(TTFT)+ 后续 Token 生成总时间

影响因素:

  • 模型计算开销:影响整体生成速度

  • 流式 vs. 非流式:流式输出可以降低感知延迟

  • 并行计算能力:影响批量请求处理效率

3. TPOT(Time Per Output Token)

TPOT 表示模型生成单个 Token 的平均耗时,反映持续输出的效率。

计算方式:

TPOT = 总生成时间 / 输出 Token 数量

影响因素:

  • 硬件计算能力:影响 Token 生成速度

  • 序列长度:长文本可能增加计算复杂度

  • 优化策略:如 KV Cache 可减少计算冗余

4. ITL(Token 延时,Inter-Token Latency)

ITL 指的是生成每个 Token 的实际间隔时间,通常因模型复杂度或硬件负载波动而变化。

与 TPOT 的区别:

  • TPOT 是所有 Token 的平均生成时间

  • ITL 关注单步生成的实时波动

影响因素:

  • 负载波动:计算资源占用变化可能导致 ITL 不稳定

  • Token 依赖:不同上下文对 Token 生成时间有影响

5. 吞吐(Throughput)

吞吐量指的是单位时间内系统处理的 Token 总数(如 Tokens/秒)

关键指标:

  1. Request Throughput (req/s):每秒处理的请求数

    • 计算方式:总请求数 / 运行时间

    • 应用场景:高并发 API 服务

  2. Input Token Throughput (tok/s):每秒处理的输入 Token 数量

    • 计算方式:输入 Token 总数 / 运行时间

    • 应用场景:长文本解析、大模型输入

  3. Output Token Throughput (tok/s):每秒生成的输出 Token 数量

    • 计算方式:输出 Token 总数 / 运行时间

    • 应用场景:文本生成、对话 AI

  4. Total Token Throughput (tok/s):总吞吐量

    • 计算方式:(输入+输出 Token 总数)/ 运行时间

    • 应用场景:端到端流水线性能评估

影响因素:

  • 计算硬件:GPU/TPU 并行能力直接影响吞吐量

  • 批处理(Batch Size):较大批次可提高吞吐量,但可能影响时延

  • 模型优化:如混合精度计算(FP8、FP16)可提升性能

6. 流式场景与非流式场景

流式场景(Streaming)

流式输出指数据以连续的小块形式实时传输,生成后立即发送,客户端可逐步接收,实现低延迟响应。

特点
  • 低延迟 :TTFT 需优化至 < 300ms

  • 适用于实时应用

    • 实时聊天(如 ChatGPT)

    • 语音识别(如智能助理)

    • 视频会议字幕生成

  • 挑战

    • 平衡 TTFT 和 TPOT

    • 需优化网络传输以减少传输延迟

非流式场景(Batch Processing)

非流式任务指数据整体传输,处理完成后一次性返回,适用于批量分析或静态内容生成。

特点
  • 整体处理效率更高

  • 适用于大规模数据处理

    • 文档摘要生成

    • 大规模语音转文本

    • 离线数据仓库分析

  • 优化策略

    • 增大 Batch Size 提升吞吐(可达 10k tok/s 以上)

    • 采用 GPU 并行计算降低总处理时间

7. 优化

  • 降低 TTFT:预加载模型参数、优化 KV Cache

  • 优化 TPOT:减少不必要计算,调整批次大小

  • 提升吞吐:使用高效的 GPU/TPU 并行计算,优化计算图

  • 流式 vs. 非流式权衡

    • 流式适用于低延迟需求,如对话 AI

    • 非流式适用于批量处理,如离线分析

8. 总结

指标 计算方式 影响因素 适用场景
TTFT 请求到首 Token 响应时间 计算资源、网络延迟 流式场景(如对话 AI)
E2E Latency 请求到完整输出总时间 模型计算、网络传输 端到端应用
TPOT 总生成时间 / 输出 Token 数 硬件计算能力、优化策略 持续输出任务(如文章生成)
ITL Token 生成间隔时间 负载波动、Token 依赖 实时 Token 生成分析
吞吐 每秒处理 Token 数 GPU 并行、Batch Size 高吞吐任务(如 API 服务)
流式 持续 Token 生成 低延迟优化 实时交互
非流式 计算完成后一次性输出 高吞吐优化 批量处理

style="display: none !important;">

相关推荐
_张一凡8 小时前
【多模态模型学习】从零手撕一个Vision Transformer(ViT)模型实战篇
人工智能·深度学习·transformer
Westward-sun.8 小时前
OpenCV 实战:银行卡号识别系统(基于模板匹配)
人工智能·opencv·计算机视觉
网安INF9 小时前
【论文阅读】-《TtBA: Two-third Bridge Approach for Decision-Based Adversarial Attack》
论文阅读·人工智能·神经网络·对抗攻击
努力也学不会java9 小时前
【缓存算法】一篇文章带你彻底搞懂面试高频题LRU/LFU
java·数据结构·人工智能·算法·缓存·面试
BPM66610 小时前
2026流程管理软件选型指南:从Workflow、BPM到AI流程平台(架构+实战)
人工智能·架构
金融小师妹10 小时前
基于多模态宏观建模与历史序列对齐:原油能源供给冲击的“类1970年代”演化路径与全球应对机制再评估
大数据·人工智能·能源
JamesYoung797110 小时前
OpenClaw小龙虾如何系统性节省Token,有没有可落地的方案?
人工智能
播播资源10 小时前
OpenAI2026 年 3 月 18 日最新 gpt-5.4-nano模型:AI 智能体的“神经末梢”,以极低成本驱动高频任务
大数据·人工智能·gpt
Sendingab10 小时前
2026 年 AI 数字人口播新趋势:智能体 Agent 将如何重构短视频内容生产与营销
人工智能·重构·音视频