大模型部署与推理优化实战

第1章：大模型推理的本质挑战

学习目标

理解显存墙（Memory Wall）的本质和数学原理
掌握KV Cache的显存占用计算公式
理解推理延迟的两大阶段（Prefill/Decode）
掌握性能指标体系（TTFT、TPOT、P50/P99）

1.1 从Demo到Production的鸿沟

你写了一个demo，在本地跑通了Llama-3-8B的推理，一切看起来都很美好。但当你把它部署到生产环境时，噩梦开始了：

复制代码

┌────────────────────────────────────────────────────────────────┐
│                    Demo → Production 的鸿沟                     │
├──────────────┬─────────────────┬───────────────────────────────┤
│ 关心的问题    │ Demo             │ Production                    │
├──────────────┼─────────────────┼───────────────────────────────┤
│ 并发         │ 1个请求          │ 1000+ QPS                    │
│ 延迟         │ 能跑就行         │ P99 < 200ms                  │
│ 可用性       │ 不重要           │ 99.9% uptime                 │
│ 成本         │ 电费忽略不计      │ $10K+/月 GPU租赁             │
│ 上下文长度    │ 2K tokens       │ 128K tokens                  │
└──────────────┴─────────────────┴───────────────────────────────┘

生产环境的四大挑战：

并发：不是一个人用，而是成百上千人同时用
延迟：用户等不了3秒，P99延迟必须控制在200ms以内
可用性：半夜挂了没人修？必须99.9%以上
成本：一块H100 $30,000+，8块就是$ 240,000+

1.2 显存墙：推理的第一性原理

1.2.1 计算-访存比

GPU推理的核心瓶颈不是算力，而是显存带宽。这被称为"显存墙"（Memory Wall）。

复制代码

计算-访存比 = FLOPs / Bytes

H100 算力：989 TFLOPS (FP16)
H100 显存带宽：3.35 TB/s

计算-访存比 = 989T / 3.35T ≈ 295

这意味着：每从显存读取1个字节，可以执行约295次浮点运算

这个比值告诉我们：对于大多数推理操作，GPU的算力是严重过剩的，真正卡脖子的是显存带宽。

1.2.2 GPU三层存储架构

复制代码

┌─────────────────────────────────────────────────────┐
│  SRAM (L1/L2 Cache)     延迟：~20 cycles            │
│  容量：~50MB (H100)     带宽：数十TB/s              │
│  ─────────────────────────────────────────────────  │
│  HBM (高带宽显存)        延迟：~200 cycles           │
│  容量：80GB (H100)       带宽：3.35 TB/s             │
│  ─────────────────────────────────────────────────  │
│  CPU DRAM                延迟：~500 cycles           │
│  容量：512GB+            带宽：~100 GB/s (PCIe)      │
└─────────────────────────────────────────────────────┘

所以在Decode阶段，每次生成一个token都需要：

从HBM加载整个模型权重（70B参数 × 2字节 = 140GB）
读取KV Cache（可能几十GB）
实际计算（很少的FLOPs）

结论：Decode阶段是memory-bound的，性能完全由显存带宽决定。

1.3 KV Cache：显存占用的数学公式

1.3.1 公式推导

KV Cache的显存占用公式：

复制代码

KV Cache = 2 × n_layers × n_kv_heads × d_head × dtype_bytes × seq_len × batch_size

以 Llama-3-70B 为例（GQA，8个KV heads）：
n_layers = 80
n_kv_heads = 8
d_head = 128
dtype_bytes = 2 (FP16)
seq_len = 128K
batch_size = 1

KV Cache = 2 × 80 × 8 × 128 × 2 × 131072 × 1
         = 2 × 80 × 8 × 128 × 2 × 131072
         = 4,294,967,296 字节
         ≈ 4 GB  (仅1个请求！)

如果batch_size=64，seq_len=128K：

复制代码

KV Cache = 4GB × 64 = 256 GB（远超单卡80GB显存）

1.3.2 实战计算脚本

python 复制代码

def calculate_kv_cache_memory(
    n_layers: int,        # Transformer层数
    n_kv_heads: int,      # KV头数
    d_head: int,          # 每个头的维度
    dtype_bytes: int,     # 数据类型字节数 (FP16=2, FP32=4)
    seq_len: int,         # 序列长度
    batch_size: int       # 批处理大小
) -> dict:
    """
    计算KV Cache的显存占用
    """
    # 公式：2 × L × H_kv × d_head × dtype × seq_len × batch
    kv_cache_per_layer = 2 * n_kv_heads * d_head * dtype_bytes * seq_len * batch_size
    total_kv_cache = kv_cache_per_layer * n_layers
    
    # 转换为可读单位
    gb = total_kv_cache / (1024 ** 3)
    
    return {
        "per_layer_mb": kv_cache_per_layer / (1024 ** 2),
        "total_gb": gb,
        "formula": f"2 × {n_layers} × {n_kv_heads} × {d_head} × {dtype_bytes} × {seq_len} × {batch_size}"
    }

# Llama-3-70B (GQA) 实例
result = calculate_kv_cache_memory(
    n_layers=80,
    n_kv_heads=8,
    d_head=128,
    dtype_bytes=2,
    seq_len=8192,
    batch_size=32
)
print(f"KV Cache 总量: {result['total_gb']:.1f} GB")
print(f"每层: {result['per_layer_mb']:.1f} MB")
print(f"公式: {result['formula']}")

1.4 推理两阶段：Prefill与Decode

1.4.1 Prefill阶段（预填充）

复制代码

输入："请解释量子计算"
      ↓
注意力计算：每个token关注所有前面的token（并行）
      ↓
计算特征：O(N²)的注意力矩阵，计算密集
      ↓
瓶颈：GPU算力（Compute-bound）

1.4.2 Decode阶段（逐token生成）

复制代码

已生成Token：["请", "解释", "量子", "计算", "是", "一种"]
      ↓
生成下一个Token：只需关注最后一个token
      ↓
计算特征：加载所有权重和KV Cache（少量计算）
      ↓
瓶颈：显存带宽（Memory-bound）

为什么Decode是优化重点？

特性	Prefill	Decode
计算模式	并行	串行
瓶颈	算力	带宽
出现频率	1次/请求	N次/请求
加速手段	量化、算子融合	KV Cache优化、连续批处理

Decode阶段执行了N次（N=输出token数），而Prefill只执行1次，所以Decode才是优化的主战场。

1.5 性能指标体系

1.5.1 核心指标定义

指标	全称	含义	目标值
TTFT	Time To First Token	首token延迟	< 200ms
TPOT	Time Per Output Token	每token生成时间	< 20ms
TPS	Tokens Per Second	每秒生成token数	> 50
QPS	Queries Per Second	每秒处理请求数	> 100
P50	50th Percentile	一半请求的延迟上限	关注
P99	99th Percentile	99%请求的延迟上限	重点优化

1.5.2 成本指标

复制代码

$/1M tokens = (GPU每小时成本 × GPU数量) / (tokens/s × 3600) × 1,000,000

例：4×H100，每小时$3.5/卡，吞吐2500 tokens/s
$/1M tokens = (3.5 × 4) / (2500 × 3600) × 1,000,000
            = 14 / 9,000,000 × 1,000,000
            = $1.56

动手练习

练习1：计算你的模型KV Cache

python 复制代码

# 计算你常用模型的KV Cache占用
models = [
    {"name": "Llama-3-8B", "layers": 32, "kv_heads": 8, "d_head": 128},
    {"name": "Llama-3-70B", "layers": 80, "kv_heads": 8, "d_head": 128},
    {"name": "Mixtral-8x7B", "layers": 32, "kv_heads": 8, "d_head": 128},
]

for m in models:
    for seq_len in [2048, 8192, 32768, 131072]:
        result = calculate_kv_cache_memory(
            m["layers"], m["kv_heads"], m["d_head"],
            2, seq_len, batch_size=1
        )
        print(f"{m['name']} @ {seq_len} tokens: {result['total_gb']:.2f} GB")

练习2：使用PyTorch Profiler

python 复制代码

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from torch.profiler import profile, ProfilerActivity

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3-8B-Instruct",
    torch_dtype=torch.float16,
    device_map="cuda"
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3-8B-Instruct")

prompt = "请解释人工智能的基本原理" * 10
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

with profile(
    activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA],
    record_shapes=True,
    with_stack=True
) as prof:
    with torch.no_grad():
        outputs = model(**inputs)

# 按CUDA时间排序输出top 10操作
print(prof.key_averages().table(sort_by="cuda_time_total", row_limit=10))

# 导出Chrome Trace在 chrome://tracing 查看
prof.export_chrome_trace("trace.json")

常见陷阱

陷阱1：只看算力不看显存带宽

症状：买了高算力GPU（如RTX 4090），但推理性能不如预期。

根因：Decode阶段是memory-bound的，4090的显存带宽（1TB/s）远低于H100（3.35TB/s）。算力再高也白搭。

解决方案：推理场景下，显存带宽 > 显存容量 > 算力。

陷阱2：忽略KV Cache的显存占用

症状：加载模型时显存还有余量，但跑几个长序列请求后OOM。

根因：KV Cache在推理过程中动态增长，长序列请求会迅速耗尽显存。

解决方案：使用公式提前计算KV Cache需求，限制最大序列长度。

陷阱3：用P50延迟代替P99延迟

症状：平均延迟看起来很好（50ms），但用户经常抱怨卡顿。

根因：P50只反映一半请求的延迟，长尾延迟可能高达500ms+。

解决方案：始终监控P99延迟，长尾延迟才是用户体验的瓶颈。

小结

显存墙是推理的第一性原理：Decode阶段是memory-bound，性能由显存带宽决定
KV Cache公式：2 × L × H_kv × d_head × dtype × seq_len × batch，是显存爆炸的罪魁祸首
推理两阶段：Prefill（compute-bound）只执行1次，Decode（memory-bound）执行N次
性能指标：TTFT、TPOT、P99延迟是核心关注指标
成本计算：$/1M tokens = GPU成本 / 吞吐量，是商业决策的基础

复习题

为什么说"Decode阶段是memory-bound"？用计算-访存比来解释。
计算Llama-3-70B在32K上下文、batch_size=8时的KV Cache显存占用。如果只有4×80GB H100，够用吗？
Prefill和Decode阶段的瓶颈分别是什么？为什么优化策略不同？
为什么P99延迟比平均延迟更重要？举一个实际场景说明。
某公司使用4×H100部署推理服务，每小时成本$14，吞吐2000 tokens/s。计算每1M token的成本。如果量化后吞吐提升到3500 tokens/s，成本能降低多少？

第2章：模型量化：从FP16到INT4

学习目标

理解量化的基本原理和精度-效率权衡
掌握AWQ和GPTQ两种主流量化算法
能够根据场景选择最优量化方案
能够进行量化前后的精度对比测试

2.1 量化基础

2.1.1 什么是量化

量化是将模型参数从高精度（如FP16）映射到低精度（如INT4）的过程：

复制代码

FP16 → INT4 量化示意：

原始权重矩阵（FP16）：
[0.123, -0.456, 0.789, -0.012, ...]
  ↓ 找到缩放因子 scale = max(|W|) / 7
  ↓ 量化：w_int4 = round(w_fp16 / scale)
  ↓
量化后（INT4）：
[1, -4, 7, 0, ...]  × scale

显存节省：16bit → 4bit = 75%

2.1.2 量化粒度

粒度	描述	精度	开销
Per-Tensor	整个矩阵共享scale	最低	最小
Per-Channel	每个输出通道独立scale	中等	小
Per-Group	每128个元素一组scale	最高	中等

python 复制代码

# 量化粒度对比
import torch

weight = torch.randn(4096, 4096, dtype=torch.float16)

# Per-Tensor量化
scale_tensor = weight.abs().max() / 7
w_int4_tensor = torch.round(weight / scale_tensor).clamp(-8, 7)

# Per-Channel量化
scale_channel = weight.abs().max(dim=1).values / 7
w_int4_channel = torch.round(weight / scale_channel.unsqueeze(1)).clamp(-8, 7)

# Per-Group量化 (group_size=128)
scale_group = weight.reshape(-1, 128).abs().max(dim=1).values / 7
w_int4_group = torch.round(
    weight.reshape(-1, 128) / scale_group.unsqueeze(1)
).clamp(-8, 7)

print(f"Per-Tensor PSNR: {compute_psnr(weight, w_int4_tensor * scale_tensor)}")
print(f"Per-Channel PSNR: {compute_psnr(weight, w_int4_channel * scale_channel.unsqueeze(1))}")

2.2 PTQ vs QAT

方式	全称	原理	训练需求	精度	适用场景
PTQ	Post-Training Quantization	训练后直接量化	无	略有损失	通用场景
QAT	Quantization-Aware Training	训练时模拟量化	需要	更高	精度敏感

对于LLM推理，PTQ是主流选择------因为QAT需要重新训练70B+参数的模型，成本太高。

2.3 AWQ：激活感知权重量化

2.3.1 核心思想

AWQ观察到：不是所有权重同等重要。约1%的"显著权重"通道保留了大部分信息，应该用更高精度处理。

复制代码

AWQ 工作流程：
1. 用校准数据跑前向传播，收集激活值分布
2. 找到激活值最大的通道 → 这些是"显著通道"
3. 对显著通道的权重乘以缩放因子（放大），量化后再缩小
4. 其余通道正常量化

2.3.2 AWQ实战

python 复制代码

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = "meta-llama/Llama-3-8B-Instruct"
quant_path = "./llama-3-8b-awq"

# 加载模型
model = AutoAWQForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    low_cpu_mem_usage=True
)
tokenizer = AutoTokenizer.from_pretrained(model_path)

# 量化配置
quant_config = {
    "zero_point": True,        # 使用零点量化
    "q_group_size": 128,       # 每128个元素共享scale
    "w_bit": 4,                # 4-bit量化
    "version": "GEMM"          # 使用GEMM内核加速
}

# 执行量化
model.quantize(tokenizer, quant_config=quant_config)

# 保存量化模型
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

print(f"模型已量化并保存到 {quant_path}")
print(f"大小对比: {get_size(model_path)} → {get_size(quant_path)}")

2.3.3 加载量化模型推理

python 复制代码

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer, TextStreamer

model = AutoAWQForCausalLM.from_quantized(
    "./llama-3-8b-awq",
    fuse_layers=True,      # 融合LayerNorm
    max_seq_len=4096
)
tokenizer = AutoTokenizer.from_pretrained("./llama-3-8b-awq")

prompt = "请解释什么是深度学习"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

# 流式输出
streamer = TextStreamer(tokenizer, skip_prompt=True)
_ = model.generate(
    **inputs,
    max_new_tokens=256,
    temperature=0.7,
    streamer=streamer
)

2.4 GPTQ：基于二阶信息的量化

2.4.1 核心思想

GPTQ逐列量化权重，利用Hessian矩阵的二阶信息补偿量化误差：

python 复制代码

from transformers import AutoModelForCausalLM, AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig

model_path = "meta-llama/Llama-3-8B-Instruct"
quant_path = "./llama-3-8b-gptq"

# GPTQ量化配置
quantize_config = BaseQuantizeConfig(
    bits=4,                    # 4-bit
    group_size=128,            # 分组大小
    damp_percent=0.01,         # Hessian阻尼
    desc_act=False,            # 是否按激活值排序
    sym=True,                  # 对称量化
    true_sequential=True       # 顺序量化
)

# 加载并量化
model = AutoGPTQForCausalLM.from_pretrained(
    model_path,
    quantize_config,
    torch_dtype="auto"
)

# 准备校准数据
tokenizer = AutoTokenizer.from_pretrained(model_path)
calibration_texts = [
    "人工智能是计算机科学的一个分支",
    "深度学习是机器学习的一种方法",
    # ... 更多校准样本（通常128个就够了）
]

# 执行量化
model.quantize(
    tokenizer=tokenizer,
    calibration_texts=calibration_texts
)

# 保存
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

2.4.2 AWQ vs GPTQ 对比

特性	AWQ	GPTQ
核心思想	激活感知权重保护	二阶信息误差补偿
量化速度	快（~10分钟/7B）	慢（~1小时/7B）
精度	略优	好
校准数据	不需要	需要128个样本
适用场景	通用	精度敏感
2024推荐	首选	备选

2.5 量化精度验证

python 复制代码

from lm_eval import evaluator
from lm_eval.models.huggingface import HFLM

def evaluate_model(model_path: str, tasks: list = None):
    """评估模型在标准benchmark上的精度"""
    if tasks is None:
        tasks = ["mmlu", "hellaswag", "arc_challenge"]
    
    lm = HFLM(pretrained=model_path, device="cuda")
    
    results = evaluator.simple_evaluate(
        model=lm,
        tasks=tasks,
        num_fewshot=0,
        batch_size=8
    )
    
    return {
        task: results["results"][task]["acc,none"]
        for task in tasks
    }

# 量化前后精度对比
original = evaluate_model("meta-llama/Llama-3-8B-Instruct")
quantized = evaluate_model("./llama-3-8b-awq")

print("精度对比：")
for task in original:
    diff = (quantized[task] - original[task]) * 100
    status = "OK" if abs(diff) < 1.0 else "WARN"
    print(f"  {task}: {original[task]:.4f} → {quantized[task]:.4f} "
          f"({diff:+.2f}%) [{status}]")

2.6 选型决策树

python 复制代码

def recommend_quantization(
    model_size_gb: float,    # 模型大小（GB）
    gpu_memory_gb: float,    # GPU显存（GB）
    precision_sensitive: bool # 是否精度敏感
) -> str:
    """推荐量化方案"""
    compression_ratio = gpu_memory_gb / (model_size_gb * 0.9)
    
    if compression_ratio >= 1.0:
        return "FP16（无需量化）"
    elif compression_ratio >= 0.5:
        return "INT8（AWQ 8-bit，精度几乎无损）"
    elif compression_ratio >= 0.25:
        if precision_sensitive:
            return "INT4 AWQ（精度最优）"
        else:
            return "INT4 GPTQ（速度优先）"
    else:
        return "INT4 + 多GPU（需要分布式）"

# 示例
print(recommend_quantization(140, 80, False))  # 70B FP16 → 80GB H100
# 输出: INT4 AWQ（精度最优）

动手练习

练习1：量化你自己的模型

python 复制代码

# 选择一个HuggingFace上的小模型进行量化实践
# 建议使用Qwen2-1.5B或Llama-3.2-1B等小模型
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

# 1. 加载模型
# 2. 执行AWQ INT4量化
# 3. 对比量化前后的模型大小和推理速度
# 4. 测试几个prompt看看输出质量

练习2：不同量化bit的精度对比

python 复制代码

# 对比INT8、INT4、INT3在相同任务上的精度
# 观察精度损失拐点在哪里

常见陷阱

陷阱1：量化后不验证精度

症状：量化后模型输出质量明显下降，奇怪的是延迟也没降多少。

根因：没有做精度验证，可能量化配置有问题（如group_size太小）。

解决方案：量化后至少跑几个标准benchmark（MMLU、HellaSwag等），确保精度损失<1%。

陷阱2：量化所有层

症状：量化后某些层精度损失特别大。

根因：不是所有层都适合量化，嵌入层和LM Head通常保留FP16。

解决方案 ：排除敏感层，如lm_head和embed_tokens。

陷阱3：只用AWQ不用GPTQ

症状：AWQ在某些大模型（405B+）上精度不理想。

根因：AWQ的激活感知策略在超大模型上可能不够稳定。

解决方案 ：对超大模型优先尝试GPTQ，或使用AWQ的version="GEMM"。

小结

量化原理：将FP16映射到INT4，通过scale和zero_point保持精度
AWQ：激活感知，找到显著权重通道保护，速度快，2024首选
GPTQ：基于Hessian二阶信息补偿误差，精度好但慢
选型原则：优先AWQ INT4，精度敏感用GPTQ，显存充裕用INT8
验证必须：量化后必须跑benchmark验证精度，损失应<1%

复习题

解释Per-Tensor、Per-Channel、Per-Group三种量化粒度的区别。为什么Per-Group精度最高？
AWQ如何识别"显著权重通道"？这个过程依赖校准数据吗？
GPTQ的Hessian矩阵是如何用于补偿量化误差的？
一个70B模型（FP16=140GB），要部署在单张80GB H100上，需要多大的压缩比？推荐什么量化方案？
量化后精度损失超过2%时，你会如何排查？列出3个可能的原因和解决方案。

第3章：KV Cache优化：打破显存瓶颈

学习目标

理解KV Cache的本质问题和优化方向
掌握PagedAttention的核心原理
理解GQA/MQA对KV Cache的压缩效果
能够配置Prefix Caching和KV Cache量化

3.1 KV Cache的本质问题

3.1.1 为什么需要KV Cache

在自回归生成中，每次生成新token都要计算所有历史token的注意力。如果每次都重新计算，复杂度是O(N²)的：

复制代码

没有KV Cache（每次重新计算）：
Token 1: 计算 attn(T1) → 1次
Token 2: 计算 attn(T1, T2) → 2次
Token 3: 计算 attn(T1, T2, T3) → 3次
...
Token N: 计算 attn(T1, ..., TN) → N次
总计算量: O(N²)

有KV Cache（缓存K和V）：
Token 1: 计算 K1, V1 + 缓存
Token 2: 计算 K2, V2 + attn(Q2, [K1,V1])
Token 3: 计算 K3, V3 + attn(Q3, [K1,V1,K2,V2])
...
Token N: 计算 KN, VN + attn(QN, [K1..KN-1, V1..VN-1])
总计算量: O(N)  ← 但需要存储KV Cache

3.1.2 KV Cache的三大问题

问题	描述	影响
显存碎片化	预分配+动态增长导致碎片	利用率<50%
无法共享	不同请求的相同前缀重复存储	浪费显存
超长序列	128K上下文KV Cache爆炸	OOM

3.2 PagedAttention：像操作系统一样管理显存

3.2.1 核心思想

PagedAttention借鉴操作系统的虚拟内存和分页机制：

复制代码

传统KV Cache（连续分配）：
┌──────────────────────────────────────────────┐
│ [Req1: 8000 tokens KV Cache]  ← 浪费         │
│ [Req2: 2000 tokens KV Cache]                 │
│ [Req3: 5000 tokens KV Cache]                 │
│ [空闲]                                        │
│ [Req4: 需要4000 tokens] → 放不下！先OOM了     │
└──────────────────────────────────────────────┘

PagedAttention（分块分配）：
┌──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┐
│R1│R1│R3│R2│R1│R4│R3│R1│R4│R3│R2│R4│R1│R3│R4│
│B0│B1│B0│B0│B2│B0│B1│B3│B1│B2│B1│B2│B4│B3│B3│
└──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┘
每个块大小固定（如16 tokens），按需分配，零碎片

3.2.2 PagedAttention的优势

特性	传统KV Cache	PagedAttention
显存利用率	20-40%	90-96%
碎片化	严重	无
共享	不支持	支持（Prefix Caching）
最大batch	受碎片限制	接近理论最大值

3.2.3 vLLM中PagedAttention的配置

python 复制代码

from vllm import LLM

llm = LLM(
    model="meta-llama/Llama-3-8B-Instruct",
    # PagedAttention 关键参数
    block_size=16,              # 每块16个token（默认值）
    gpu_memory_utilization=0.90, # 显存利用率上限
    max_model_len=8192,         # 最大序列长度
    swap_space=4,               # CPU swap空间（GB）
    
    # 当KV Cache不足时，自动swap到CPU
    # 避免OOM，但会降低性能
)

3.3 GQA/MQA：减少KV头的数量

3.3.1 注意力头机制对比

机制	原理	KV头数	KV Cache比例	代表模型
MHA	每个Q头独立KV头	= Q头数	100%	Llama-3-8B (base)
GQA	多个Q头共享一组KV头	Q头数/8	12.5%	Llama-3-70B, Llama-3-8B-Instruct
MQA	所有Q头共享1个KV头	1	~1.5%	Falcon

复制代码

MHA: Q₁Q₂Q₃Q₄ → K₁V₁ K₂V₂ K₃V₃ K₄V₄  (4组KV)
GQA: Q₁Q₂ Q₃Q₄ → K₁V₁ K₂V₂              (2组KV，节省50%)
MQA: Q₁Q₂Q₃Q₄ → K₁V₁                     (1组KV，节省75%)

3.3.2 计算KV Cache节省量

python 复制代码

def kv_cache_reduction(
    n_q_heads: int,    # Query头数
    n_kv_heads: int,   # KV头数
    n_layers: int,
    d_head: int,
    seq_len: int,
    batch_size: int = 1
):
    """计算GQA/MQA相对于MHA的KV Cache节省"""
    # MHA: KV头数 = Q头数
    mha_cache = 2 * n_layers * n_q_heads * d_head * 2 * seq_len * batch_size
    
    # GQA: 实际KV头数
    actual_cache = 2 * n_layers * n_kv_heads * d_head * 2 * seq_len * batch_size
    
    reduction = (1 - actual_cache / mha_cache) * 100
    
    return {
        "mha_cache_gb": mha_cache / (1024**3),
        "actual_cache_gb": actual_cache / (1024**3),
        "reduction_pct": reduction,
        "saved_gb": (mha_cache - actual_cache) / (1024**3)
    }

# Llama-3-70B (GQA: 64 Q heads, 8 KV heads)
result = kv_cache_reduction(
    n_q_heads=64,
    n_kv_heads=8,
    n_layers=80,
    d_head=128,
    seq_len=32768
)
print(f"MHA KV Cache: {result['mha_cache_gb']:.1f} GB")
print(f"GQA KV Cache: {result['actual_cache_gb']:.1f} GB")
print(f"节省: {result['reduction_pct']:.0f}% ({result['saved_gb']:.1f} GB)")
# 输出: 节省: 87.5% (约28 GB!)

3.4 Prefix Caching：共享系统提示词

3.4.1 原理

当多个请求共享相同的系统提示词时，Prefix Caching只计算和存储一次：

复制代码

请求1: [System Prompt: 你是AI助手] + [What is AI?]
请求2: [System Prompt: 你是AI助手] + [What is ML?]
请求3: [System Prompt: 你是AI助手] + [What is DL?]

无Prefix Caching：
  System Prompt的KV Cache存储3次 → 浪费

有Prefix Caching：
  System Prompt的KV Cache只存储1次 → 3个请求共享
  节省: 66% KV Cache

3.4.2 配置和效果

python 复制代码

from vllm import LLM

llm = LLM(
    model="meta-llama/Llama-3-70B-Instruct",
    enable_prefix_caching=True,  # 开启前缀缓存
    block_size=16,
    gpu_memory_utilization=0.90
)

# 效果估算：
# 假设系统提示词占2000 tokens，每秒100个请求
# 无Prefix Caching: 2000 × 100 = 200,000 tokens KV Cache/秒
# 有Prefix Caching: 2000 tokens KV Cache（共享）
# 节省: 99%！

Prefix Caching的命中条件：

多个请求的前缀完全一致（token by token匹配）
即使中间有不同token，之前匹配的部分仍然可以复用
系统提示词是最典型的场景

3.5 KV Cache量化（可选）

python 复制代码

# vLLM支持KV Cache FP8量化（H100+）
from vllm import LLM

llm = LLM(
    model="meta-llama/Llama-3-70B-Instruct",
    kv_cache_dtype="fp8",        # KV Cache FP8量化
    # 节省50% KV Cache显存，精度损失极小
    gpu_memory_utilization=0.90
)

KV Cache格式	显存占用	精度影响	硬件要求
FP16	100%	无	所有GPU
FP8	50%	<0.1%	H100/H200
INT8	50%	<0.5%	A100+

3.6 KV Cache优化组合

python 复制代码

# 综合优化：PagedAttention + GQA + Prefix Caching + FP8 KV Cache
from vllm import LLM

llm = LLM(
    # 选择GQA模型（8 KV heads vs 64 Q heads）
    model="meta-llama/Llama-3-70B-Instruct",  # 自带GQA
    
    # PagedAttention配置
    block_size=16,
    gpu_memory_utilization=0.90,
    max_model_len=32768,
    
    # Prefix Caching
    enable_prefix_caching=True,
    
    # KV Cache FP8量化（H100）
    kv_cache_dtype="fp8",
    
    # CPU swap（兜底）
    swap_space=8
)

# 优化效果估算（相对原始FP16 MHA）：
# 原始KV Cache: 100%（基准）
# GQA: 12.5% → 节省87.5%
# PagedAttention: 利用率40%→90% → 有效容量翻倍
# Prefix Caching: 系统提示词共享 → 节省30-60%
# FP8 KV Cache: 50% → 再节省50%
# 综合效果: KV Cache有效容量提升 10-20x

动手练习

练习1：计算不同模型的KV Cache

python 复制代码

# 对比不同模型、不同序列长度下的KV Cache
models = [
    ("Llama-3-8B", 32, 32, 8),      # GQA, 32Q→8KV
    ("Llama-3-70B", 80, 64, 8),     # GQA, 64Q→8KV
    ("Llama-3-405B", 126, 128, 8),  # GQA, 128Q→8KV
    ("GPT-4 (est.)", 120, 128, 128), # MHA
]

for name, layers, q_heads, kv_heads in models:
    result = kv_cache_reduction(
        q_heads, kv_heads, layers, 128, 32768, 1
    )
    print(f"{name}: {result['actual_cache_gb']:.1f} GB "
          f"(节省 {result['reduction_pct']:.0f}%)")

练习2：启用Prefix Caching后对比

python 复制代码

# 对比开启/关闭Prefix Caching的吞吐量差异
# 模拟100个请求，共享2000 token系统提示词
import time
from vllm import LLM, SamplingParams

system_prompt = "You are a helpful AI assistant. " * 50  # ~2000 tokens
prompts = [system_prompt + f"Question {i}" for i in range(100)]

# 测试开启Prefix Caching
llm = LLM(model="meta-llama/Llama-3-8B-Instruct", enable_prefix_caching=True)
start = time.time()
llm.generate(prompts, SamplingParams(max_tokens=128))
print(f"有Prefix Caching: {time.time() - start:.2f}s")

常见陷阱

陷阱1：不选GQA模型

症状：部署了完整的MHA模型（如原始Llama-3-8B），KV Cache占用巨大。

根因：未使用GQA版本，KV头数=Q头数，KV Cache多了8倍。

解决方案：优先使用Instruct版本（自带GQA），或选择其他GQA模型。

陷阱2：Prefix Caching未生效

症状：开启了Prefix Caching但命中率接近0。

根因：请求前缀不完全一致（如多了时间戳、随机ID等）。

解决方案：将系统提示词放在最前面，避免在提示词前加动态内容。

陷阱3：block_size设置不当

症状：设置了block_size=256，但大部分请求只有几十个token，造成浪费。

根因：block_size太大导致内部碎片（block内未使用的token也占用显存）。

解决方案：block_size默认16是合理的，不要随意增大。

小结

KV Cache是推理显存消耗的主要来源，三大优化方向：管理、压缩、共享
PagedAttention：分块管理，消除碎片，利用率从40%提升到90%+
GQA/MQA：减少KV头数，GQA可节省87.5%的KV Cache
Prefix Caching：共享系统提示词，节省30-60% KV Cache
综合优化：PagedAttention + GQA + Prefix Caching + FP8可达10-20x有效容量提升

复习题

PagedAttention如何解决KV Cache的显存碎片化问题？说明其与操作系统虚拟内存的类比。
GQA和MQA的区别是什么？为什么几乎所有现代LLM都采用GQA？
Prefix Caching的命中条件是什么？如果系统提示词中有{current_time}变量，还能命中吗？
一个生产环境每秒处理100个请求，系统提示词2000 tokens。开启Prefix Caching能节省多少KV Cache显存？
设计一个KV Cache优化方案，使得80GB H100能支持Llama-3-70B在32K上下文、batch_size=32的推理。列出每个优化手段的贡献。

第4章：推理引擎实战：vLLM深度解析

学习目标

理解vLLM的整体架构设计
掌握PagedAttention的内存管理机制
理解Continuous Batching的调度策略
能够配置vLLM进行生产级推理

4.1 vLLM架构概览

4.1.1 整体架构

复制代码

┌─────────────────────────────────────────────────────┐
│                     vLLM 架构                         │
├─────────────────────────────────────────────────────┤
│  ┌─────────────────────────────────────────────┐    │
│  │            API Server (FastAPI)               │    │
│  │  OpenAI兼容 /v1/chat/completions             │    │
│  └────────────────────┬────────────────────────┘    │
│                       │                              │
│  ┌────────────────────▼────────────────────────┐    │
│  │        AsyncLLMEngine (异步引擎)              │    │
│  │  ┌──────────┐  ┌──────────┐  ┌──────────┐   │    │
│  │  │Scheduler │  │KV Cache  │  │Worker    │   │    │
│  │  │调度器    │  │Manager   │  │管理器    │   │    │
│  │  └──────────┘  └──────────┘  └──────────┘   │    │
│  └────────────────────┬────────────────────────┘    │
│                       │                              │
│  ┌────────────────────▼────────────────────────┐    │
│  │            Model Runner (模型执行器)          │    │
│  │  ┌──────────────────────────────────────┐   │    │
│  │  │  PagedAttention + FlashAttention     │   │    │
│  │  │  + Continuous Batching + CUDA Graph  │   │    │
│  │  └──────────────────────────────────────┘   │    │
│  └─────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────┘

4.1.2 vLLM的核心创新

创新	解决的问题	效果
PagedAttention	KV Cache显存碎片化	利用率40%→96%
Continuous Batching	请求串行等待	吞吐提升10-20x
Prefix Caching	系统提示词重复计算	KV Cache节省30-60%
CUDA Graph	CPU kernel launch开销	延迟降低20-30%

4.2 PagedAttention深入

4.2.1 内存管理细节

python 复制代码

# PagedAttention的块表（Block Table）
# 每个请求维护一个块表，记录其KV Cache块的位置

class BlockTable:
    """
    块表结构示例：
    Request 1: [Block 0, Block 5, Block 12, Block 3]
    Request 2: [Block 1, Block 7]
    Request 3: [Block 0, Block 5, Block 8]  ← 共享Block 0,5(前缀)
    """
    def __init__(self, block_size=16):
        self.block_size = block_size
        self.blocks = {}  # {request_id: [block_ids]}
        self.free_blocks = set(range(1000))  # 空闲块池
    
    def allocate(self, request_id: str, num_tokens: int):
        """为请求分配块"""
        num_blocks = (num_tokens + self.block_size - 1) // self.block_size
        allocated = []
        for _ in range(num_blocks):
            if not self.free_blocks:
                # 无空闲块，触发swap或拒绝
                raise MemoryError("No free blocks")
            block_id = self.free_blocks.pop()
            allocated.append(block_id)
        
        if request_id not in self.blocks:
            self.blocks[request_id] = []
        self.blocks[request_id].extend(allocated)
        return allocated
    
    def free(self, request_id: str):
        """释放请求的所有块"""
        if request_id in self.blocks:
            self.free_blocks.update(self.blocks[request_id])
            del self.blocks[request_id]

4.2.2 物理块 vs 逻辑块

复制代码

逻辑块（请求视角）              物理块（显存视角）
Request A: [L0, L1, L2, L3]    Physical 0: Request A - L0
                                Physical 1: Request B - L0
                                Physical 2: Request A - L1
                                Physical 3: Request C - L0
                                Physical 4: Request A - L2
                                Physical 5: Request B - L1
                                Physical 6: Request A - L3
                                Physical 7: [空闲]

块表（Block Table）维护逻辑块到物理块的映射，类似操作系统的页表。

4.3 Continuous Batching：不停歇的批处理

4.3.1 传统Batching vs Continuous Batching

复制代码

传统Batching（静态）：
Batch 1: [Req1, Req2, Req3, Req4] → 等待所有完成
  最长的Req1生成500 tokens，其余3个在150 tokens后"空转"
  浪费: 3个请求空转了350 tokens的时间

Continuous Batching（动态）：
时刻T0: [Req1, Req2, Req3, Req4]  4个请求
时刻T1: [Req1, Req5, Req3, Req6]  Req2和Req4完成，加入Req5和Req6
时刻T2: [Req7, Req5, Req8, Req6]  Req1和Req3完成，加入Req7和Req8
  利用率: 接近100%，GPU始终在处理有效请求

4.3.2 调度策略

python 复制代码

# vLLM的调度策略（简化版）
class Scheduler:
    def __init__(self, max_num_seqs=64, max_num_batched_tokens=8192):
        self.max_num_seqs = max_num_seqs
        self.max_num_batched_tokens = max_num_batched_tokens
        self.waiting = []   # 等待队列
        self.running = []   # 运行队列
    
    def schedule(self) -> list:
        """选择下一批要执行的请求"""
        batch = []
        total_tokens = 0
        
        # 1. 优先调度运行中的请求（prefill完成的）
        for req in self.running:
            if len(batch) >= self.max_num_seqs:
                break
            if total_tokens + 1 <= self.max_num_batched_tokens:
                batch.append(req)
                total_tokens += 1  # decode每次1个token
        
        # 2. 填充新请求（prefill阶段）
        for req in self.waiting:
            if len(batch) >= self.max_num_seqs:
                break
            req_tokens = len(req.prompt_tokens)
            if total_tokens + req_tokens <= self.max_num_batched_tokens:
                batch.append(req)
                total_tokens += req_tokens
                self.waiting.remove(req)
                self.running.append(req)
        
        return batch
    
    def on_request_finish(self, request):
        """请求完成，从运行队列移除"""
        self.running.remove(request)

4.4 Prefix Caching：共享就是省钱

python 复制代码

from vllm import LLM

llm = LLM(
    model="meta-llama/Llama-3-8B-Instruct",
    enable_prefix_caching=True,  # 核心开关
    gpu_memory_utilization=0.90
)

# 场景：RAG应用的系统提示词
system_prompt = """You are a helpful AI assistant. 
You answer questions based on the provided context.
Be concise and accurate."""  # ~30 tokens

# 100个请求共享相同的系统提示词
# 无Prefix Caching: 30 × 100 = 3000 tokens KV Cache
# 有Prefix Caching: 30 tokens KV Cache（共享）
# 节省: 99%！

自动前缀匹配：vLLM使用哈希表自动检测前缀匹配，无需手动配置。

4.5 生产配置实战

4.5.1 高性能配置

python 复制代码

from vllm import LLM, SamplingParams

llm = LLM(
    model="meta-llama/Llama-3-70B-Instruct",
    tensor_parallel_size=4,        # 4卡TP
    dtype="float16",               # 模型精度
    
    # 内存管理
    gpu_memory_utilization=0.90,   # 显存利用率
    max_model_len=8192,            # 最大序列长度
    block_size=16,                 # PagedAttention块大小
    swap_space=8,                  # CPU swap
    
    # 批处理
    max_num_seqs=128,              # 最大并发序列数
    max_num_batched_tokens=8192,   # 单batch最大token数
    
    # 优化
    enable_prefix_caching=True,    # 前缀缓存
    enable_chunked_prefill=True,   # 分块prefill
    max_num_prefills=32,           # 最大并发prefill数
    
    # 调度策略
    scheduling_policy="fcfs",      # 先来先服务
)

sampling_params = SamplingParams(
    temperature=0.7,
    top_p=0.9,
    top_k=50,
    max_tokens=512,
    repetition_penalty=1.1,
    stop=["</s>", "<|eot_id|>"]
)

4.5.2 不同场景的配置建议

场景	核心参数	说明
高吞吐（批处理）	max_num_seqs=256, max_num_batched_tokens=16384	大批量提高GPU利用率
低延迟（实时）	max_num_seqs=32, max_num_batched_tokens=4096	小批量减少等待
长上下文	max_model_len=131072, block_size=32	使用大块减少块表开销
多模型	tensor_parallel_size=1, 多实例	每个实例一个模型

动手练习

练习1：部署vLLM服务

bash 复制代码

# 启动OpenAI兼容API服务
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3-8B-Instruct \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.90 \
    --max-model-len 4096 \
    --port 8000

# 测试
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-3-8B-Instruct",
    "messages": [{"role": "user", "content": "Hello!"}],
    "max_tokens": 100
  }'

练习2：对比吞吐量

python 复制代码

from vllm import LLM, SamplingParams
import time

def benchmark(llm, prompts, label):
    start = time.time()
    outputs = llm.generate(prompts, SamplingParams(max_tokens=128))
    elapsed = time.time() - start
    total_tokens = sum(len(o.outputs[0].token_ids) for o in outputs)
    print(f"{label}: {total_tokens/elapsed:.0f} tokens/s, "
          f"{len(prompts)/elapsed:.1f} req/s")

# 对比不同batch size
prompts = ["What is AI?"] * 100
# 对比不同配置下的吞吐量

常见陷阱

陷阱1：gpu_memory_utilization设置过高

症状：vLLM启动后频繁OOM或触发swap。

根因：设为0.95-0.99，没有给KV Cache增长留Buffer。

解决方案：设为0.85-0.90，留出10-15%的Buffer。

陷阱2：忽略max_num_seqs限制

症状：请求量很大但吞吐上不去。

根因：max_num_seqs太小，GPU有空闲但不再接受新请求。

解决方案：逐步增大max_num_seqs，监控GPU利用率直到>85%。

陷阱3：Prefix Caching未生效

症状：开启后命中率很低。

根因：请求前缀包含动态内容（如时间戳、用户ID）。

解决方案：将动态内容放在系统提示词之后，确保前缀部分完全一致。

小结

vLLM架构：API Server → AsyncLLMEngine → Scheduler → Model Runner
PagedAttention：分块管理KV Cache，利用率从40%提升到96%
Continuous Batching：动态调度，GPU始终在处理有效请求
Prefix Caching：自动共享前缀KV Cache，系统提示词场景节省99%
生产配置：根据场景（高吞吐/低延迟/长上下文）调整核心参数

复习题

vLLM的PagedAttention如何实现KV Cache的分块管理？块表（Block Table）的作用是什么？
Continuous Batching相比传统静态Batching有什么优势？GPU利用率能从多少提升到多少？
Prefix Caching的自动前缀匹配是如何实现的？什么场景下效果最好？
如果你需要部署一个要求P99 < 200ms的实时chat服务，你会如何配置vLLM的参数？
分析vLLM的调度策略：为什么优先调度已经在运行中的请求，而不是优先调度等待中的请求？

第5章：推理引擎实战：TensorRT-LLM深度解析

学习目标

理解TensorRT-LLM的架构和编译流程
掌握算子融合和CUDA Graph的优化原理
理解Inflight Batching的调度机制
能够使用TensorRT-LLM构建和部署推理引擎

5.1 TensorRT-LLM架构概览

5.1.1 整体架构

复制代码

┌─────────────────────────────────────────────────────┐
│                 TensorRT-LLM 架构                     │
├─────────────────────────────────────────────────────┤
│  ┌─────────────────────────────────────────────┐    │
│  │              Python API (LLM)                 │    │
│  │  BuildConfig + QuantConfig → 构建引擎        │    │
│  └────────────────────┬────────────────────────┘    │
│                       │                              │
│  ┌────────────────────▼────────────────────────┐    │
│  │              Graph Optimization               │    │
│  │  ┌──────────┐ ┌──────────┐ ┌──────────┐     │    │
│  │  │Layer     │ │Operator  │ │Memory    │     │    │
│  │  │Fusion    │ │Fusion    │ │Planning  │     │    │
│  │  └──────────┘ └──────────┘ └──────────┘     │    │
│  └────────────────────┬────────────────────────┘    │
│                       │                              │
│  ┌────────────────────▼────────────────────────┐    │
│  │            Runtime (PyExecutor)               │    │
│  │  ┌──────────┐ ┌──────────┐ ┌──────────┐     │    │
│  │  │Scheduler │ │KV Cache  │ │Model     │     │    │
│  │  │          │ │Manager   │ │Engine    │     │    │
│  │  └──────────┘ └──────────┘ └──────────┘     │    │
│  └─────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────┘

5.1.2 TRT-LLM vs vLLM 对比

特性	TensorRT-LLM	vLLM
开发者	NVIDIA	UC Berkeley
优化方式	编译期图优化	运行时优化
启动速度	慢（需编译）	快（直接加载）
延迟	极低	低
吞吐	高	高
适用场景	极低延迟	通用高吞吐
硬件绑定	NVIDIA GPU	NVIDIA GPU

5.2 构建推理引擎

5.2.1 基础构建

python 复制代码

from tensorrt_llm import LLM, BuildConfig
from tensorrt_llm.llmapi import QuantConfig, QuantAlgo

# 构建配置
build_config = BuildConfig(
    max_num_tokens=4096,        # 最大token数
    max_batch_size=256,         # 最大batch
    max_seq_len=8192,           # 最大序列长度
    max_beam_width=1,           # beam search宽度
)

# 量化配置
quant_config = QuantConfig(
    quant_algo=QuantAlgo.FP8,   # FP8量化
    kv_cache_quant_algo=QuantAlgo.FP8  # KV Cache FP8
)

# 构建引擎
llm = LLM(
    model="meta-llama/Llama-3-8B-Instruct",
    build_config=build_config,
    quant_config=quant_config,
    tensor_parallel_size=2,     # 2卡TP
)

# 保存引擎（下次直接加载，跳过编译）
llm.save("./llama3_8b_fp8_engine")

5.2.2 加载预构建引擎

python 复制代码

# 加载已构建的引擎（快速启动）
from tensorrt_llm import LLM

llm = LLM(
    model="./llama3_8b_fp8_engine",  # 直接加载引擎
    tensor_parallel_size=2
)

# 推理
outputs = llm.generate(["What is deep learning?"])
print(outputs[0].outputs[0].text)

5.3 算子融合：让GPU少干重复活

5.3.1 融合类型

复制代码

原始计算图（未融合）：
Input → LayerNorm → QKV_Projection → Reshape → Attention → 
Output_Projection → Residual_Add → LayerNorm → FFN_Up → 
Activation → FFN_Down → Residual_Add → ...

融合后（TRT优化）：
Input → FusedLayerNorm_QKV → FlashAttention → 
FusedOutput_Residual → FusedFFN_Residual → ...

Kernel launch次数：20+ → 4（减少80%）
每次launch节省约5-10us，累积效果显著

5.3.2 关键融合模式

融合模式	原始操作	融合后	加速比
QKV融合	Q/K/V三次投影	一次矩阵乘法	1.3x
FFN融合	Up+Gate投影	一次矩阵乘法	1.2x
残差融合	Add + LayerNorm	一个kernel	1.5x
Attention融合	多步Attention	FlashAttention	2-5x

5.4 CUDA Graph：消除CPU瓶颈

5.4.1 原理

复制代码

无CUDA Graph：
CPU: launch_kernel → wait → launch_kernel → wait → launch_kernel → ...
     ↑ 每次launch 5-10us开销，累积数百us

有CUDA Graph：
CPU: launch_graph → GPU执行所有kernel → done
     ↑ 一次launch，GPU内部连续执行，零CPU开销

python 复制代码

# TRT-LLM自动使用CUDA Graph
build_config = BuildConfig(
    max_num_tokens=4096,
    max_batch_size=256,
)
build_config.plugin_config.use_paged_context_fmha = True
# CUDA Graph在runtime自动启用，无需手动配置

5.4.2 CUDA Graph的收益

场景	无CUDA Graph	有CUDA Graph	提升
小batch (1)	15ms	12ms	20%
中batch (16)	25ms	20ms	20%
大batch (64)	35ms	28ms	20%

5.5 Inflight Batching：TRT的连续批处理

python 复制代码

# TRT-LLM的Inflight Batching配置
build_config = BuildConfig(
    max_num_tokens=4096,
    max_batch_size=256,
    max_seq_len=8192,
)

# Inflight Batching是无缝的：
# - 请求完成时自动移出batch
# - 新请求到达时自动加入batch
# - 无需手动配置，引擎自动调度

与vLLM Continuous Batching的对比：

特性	TRT-LLM Inflight Batching	vLLM Continuous Batching
实现方式	编译期优化	运行时调度
上下文切换	更快（CUDA Graph）	标准
内存效率	略低（编译固定）	略高（动态分配）

5.6 量化内核

5.6.1 FP8量化（H100+）

python 复制代码

from tensorrt_llm import LLM, BuildConfig
from tensorrt_llm.llmapi import QuantConfig, QuantAlgo

build_config = BuildConfig(
    max_num_tokens=4096,
    max_batch_size=256,
)
build_config.plugin_config.use_fp8_context_fmha = True  # H100 FP8 FlashAttention

quant_config = QuantConfig(
    quant_algo=QuantAlgo.FP8,
    kv_cache_quant_algo=QuantAlgo.FP8
)

# FP8在H100上比FP16快约2x
# 精度损失<0.1%

5.6.2 INT4量化（AWQ/GPTQ）

python 复制代码

quant_config = QuantConfig(
    quant_algo=QuantAlgo.W4A16_AWQ,  # INT4权重，FP16激活
    group_size=128
)

# 或使用GPTQ
quant_config = QuantConfig(
    quant_algo=QuantAlgo.W4A16_GPTQ,
    group_size=128,
    has_zero_point=True
)

5.6.3 混合精度

python 复制代码

# 不同层使用不同精度
quant_config = QuantConfig()
quant_config.quant_algo = QuantAlgo.MIXED_PRECISION
quant_config.exclude_modules = ["lm_head", "embed_tokens"]  # 敏感层保持FP16

动手练习

练习1：构建你的第一个TRT引擎

python 复制代码

from tensorrt_llm import LLM, BuildConfig

# 1. 构建引擎
build_config = BuildConfig(
    max_num_tokens=2048,
    max_batch_size=64,
    max_seq_len=4096,
)

llm = LLM(
    model="meta-llama/Llama-3-8B-Instruct",
    build_config=build_config,
    tensor_parallel_size=1,
)

# 2. 保存引擎
llm.save("./my_first_trt_engine")

# 3. 推理测试
outputs = llm.generate(["Explain quantum computing in one sentence."])
print(outputs[0].outputs[0].text)

练习2：对比FP16 vs FP8延迟

python 复制代码

# 构建FP16和FP8两个引擎，对比延迟
# 注意：FP8需要H100+

常见陷阱

陷阱1：编译时间过长

症状：构建70B模型的引擎花了30分钟+。

根因：TRT-LLM编译需要大量CPU内存和时间。

解决方案：使用多核CPU和足够内存（建议128GB+），构建后保存引擎复用。

陷阱2：max_num_tokens设置过小

症状：引擎构建成功，但推理时拒绝请求。

根因：max_num_tokens限制了单batch的总token数，太小导致无法处理长序列。

解决方案：根据最大序列长度和batch size计算：max_num_tokens = max_seq_len * max_batch_size。

陷阱3：忽略插件配置

症状：性能不如预期，FlashAttention没有生效。

根因：没有启用必要的plugin。

解决方案 ：至少启用use_paged_context_fmha和use_fp8_context_fmha（H100）。

小结

TRT-LLM架构：编译期图优化 + 运行时高效执行
算子融合：QKV融合、FFN融合、残差融合，减少80% kernel launch
CUDA Graph：消除CPU launch开销，延迟降低20%
Inflight Batching：动态请求调度，GPU始终满负荷
量化：支持FP8（H100）、INT4 AWQ/GPTQ、混合精度
选型：极低延迟场景选TRT-LLM，通用高吞吐选vLLM

复习题

TensorRT-LLM的编译期优化和vLLM的运行时优化有什么区别？各自优缺点是什么？
算子融合为什么能提升性能？举出3个TRT-LLM中的融合模式。
CUDA Graph如何消除CPU kernel launch开销？为什么在小batch场景收益更大？
TRT-LLM的Inflight Batching和vLLM的Continuous Batching有什么异同？
构建一个70B模型的TRT-LLM引擎，FP8量化，4卡TP。写出完整的配置代码。

第6章：分布式推理：从单卡到集群

学习目标

理解TP、PP、DP、EP四种并行策略
掌握混合并行策略的设计方法
理解通信原语和优化
能够部署70B+大模型的分布式推理

6.1 为什么需要分布式推理

6.1.1 单卡瓶颈

复制代码

Llama-3-70B (FP16):
  - 模型权重: 140 GB
  - KV Cache (32K seq, batch=32): ~32 GB
  - 总需求: ~172 GB
  - H100单卡: 80 GB ← 完全不够！

6.1.2 四种并行策略一览

复制代码

┌─────────────────────────────────────────────────────────┐
│                    分布式并行策略                          │
├──────────────┬──────────────┬──────────────┬─────────────┤
│ 张量并行(TP)  │ 流水线并行(PP) │ 数据并行(DP)  │ 专家并行(EP) │
├──────────────┼──────────────┼──────────────┼─────────────┤
│ 切分单层权重  │ 切分层数      │ 复制模型      │ 分布Expert   │
│ 到多GPU      │ 到多GPU      │ 到多GPU      │ 到多GPU     │
├──────────────┼──────────────┼──────────────┼─────────────┤
│ 通信: AllReduce│ 通信: P2P   │ 通信: 无      │ 通信: All-to-All│
│ 适用: 单节点  │ 适用: 跨节点  │ 适用: 多副本  │ 适用: MoE    │
└──────────────┴──────────────┴──────────────┴─────────────┘

6.2 张量并行（Tensor Parallelism）

6.2.1 原理

将单层的权重矩阵切分到多个GPU：

复制代码

原始权重 W (4096×4096):
GPU 0: W[:, 0:2048]    ← 列切分
GPU 1: W[:, 2048:4096]

前向传播：
各GPU独立计算 → AllReduce汇总 → 继续

6.2.2 vLLM张量并行

python 复制代码

from vllm import LLM

# 8卡TP部署70B模型
llm = LLM(
    model="meta-llama/Llama-3-70B-Instruct",
    tensor_parallel_size=8,       # 8卡TP
    gpu_memory_utilization=0.90,
    max_model_len=8192
)

# 每卡显存: 140GB / 8 = 17.5GB (权重) + KV Cache
# 每卡可用: ~80GB × 0.90 = 72GB
# 剩余给KV Cache: 72GB - 17.5GB = 54.5GB

6.2.3 TP的通信开销

python 复制代码

# TP的通信模式
# 每层Transformer需要2次AllReduce：
# 1. Attention输出后
# 2. FFN输出后

# 80层 × 2次 = 160次AllReduce
# 每次AllReduce传输量 = 隐藏维度 × 数据类型
# 4096 × 2 bytes = 8KB per AllReduce
# 总通信量 = 160 × 8KB = 1.28MB per token

# 关键：TP只在节点内高效（NVLink 900GB/s）
# 跨节点TP带宽骤降（网络 100-400GB/s），不推荐

6.3 流水线并行（Pipeline Parallelism）

6.3.1 原理

将模型层数切分到多个GPU：

复制代码

GPU 0: Layers 0-19  (前20层)
GPU 1: Layers 20-39 (中20层)
GPU 2: Layers 40-59 (中20层)
GPU 3: Layers 60-79 (后20层)

执行流程（Micro-batch流水线）：
时间 →
GPU 0: [F0][F1][F2][F3]...
GPU 1:    [F0][F1][F2][F3]...
GPU 2:       [F0][F1][F2]...
GPU 3:          [F0][F1][F2]...
          ↑ 流水线气泡（Pipeline Bubble）

6.3.2 vLLM流水线并行

python 复制代码

from vllm import LLM

# 2D并行：TP+PP
llm = LLM(
    model="meta-llama/Llama-3-405B-Instruct",  # 405B!
    tensor_parallel_size=8,      # 节点内TP
    pipeline_parallel_size=4,    # 跨节点PP
    # 总共: 8×4 = 32 GPUs
    gpu_memory_utilization=0.90
)

6.4 数据并行（Data Parallelism）

推理场景中，DP通常意味着多副本部署：

python 复制代码

# 不是真正的DP（无通信），而是多实例
# 每个实例加载完整模型，独立处理请求

# 架构：
#          ┌──────────┐
#          │  Load    │
#          │ Balancer │
#          └────┬─────┘
#      ┌────────┼────────┐
#      ▼        ▼        ▼
#   vLLM-1  vLLM-2  vLLM-3
#   (完整)  (完整)  (完整)

nginx 复制代码

# Nginx负载均衡
upstream vllm_cluster {
    least_conn;
    server 10.0.0.1:8000;  # 8×H100, TP=8
    server 10.0.0.2:8000;  # 8×H100, TP=8
    server 10.0.0.3:8000;  # 8×H100, TP=8
}

6.5 专家并行（Expert Parallelism, MoE）

python 复制代码

# MoE模型的EP部署
from vllm import LLM

llm = LLM(
    model="mistralai/Mixtral-8x7B-Instruct-v0.1",
    tensor_parallel_size=2,     # 2卡TP
    expert_parallel_size=4,     # 4卡EP（分布8个Expert）
    # 总共: 2×4 = 8 GPUs
    gpu_memory_utilization=0.90
)

# Expert分布：
# GPU 0-1: Expert 0, 1 (TP=2)
# GPU 2-3: Expert 2, 3 (TP=2)
# GPU 4-5: Expert 4, 5 (TP=2)
# GPU 6-7: Expert 6, 7 (TP=2)
# 每个token激活2个Expert → All-to-All通信

6.6 混合并行策略

6.6.1 策略选择

模型大小	推荐策略	GPU数量	说明
7-13B	TP=1或2	1-2	单卡或双卡足够
30-70B	TP=4或8	4-8	节点内TP
70-180B	TP=8 + PP=2	16	跨节点
180-405B	TP=8 + PP=4	32	多节点
MoE (8×7B)	TP=2 + EP=4	8	Expert分布
405B+ MoE	TP=8 + EP=8 + PP=2	128	超大规模

6.6.2 通信优化

python 复制代码

# 通信优化关键参数
# 1. NCCL环境变量
"""
export NCCL_SOCKET_IFNAME=eth0        # 指定网络接口
export NCCL_IB_DISABLE=0              # 启用InfiniBand
export NCCL_NET_GDR_LEVEL=5           # GPUDirect RDMA
export NCCL_ALGO=Ring                 # Ring算法（大消息）
"""

# 2. vLLM通信配置
llm = LLM(
    model="meta-llama/Llama-3-70B-Instruct",
    tensor_parallel_size=8,
    # 通信优化
    distributed_executor_backend="ray",  # Ray多节点
    worker_use_ray=True,
    # NVLink/NVSwitch自动检测
)

动手练习

练习1：计算TP的显存分配

python 复制代码

def tp_memory_analysis(model_params_b, tp_size, gpu_memory_gb):
    """分析TP的显存分配"""
    model_memory = model_params_b * 2  # FP16, GB
    per_gpu_weight = model_memory / tp_size
    
    overhead = 0.05 * per_gpu_weight  # 5%通信buffer
    kv_cache_available = gpu_memory_gb * 0.9 - per_gpu_weight - overhead
    
    return {
        "per_gpu_weight_gb": per_gpu_weight,
        "communication_overhead_gb": overhead,
        "kv_cache_available_gb": kv_cache_available,
        "max_seq_len_est": kv_cache_available / (2 * model_params_b * 0.01 / 1024)
    }

# 70B模型, 8卡TP, 80GB H100
result = tp_memory_analysis(70, 8, 80)
print(f"每卡权重: {result['per_gpu_weight_gb']:.1f} GB")
print(f"KV Cache可用: {result['kv_cache_available_gb']:.1f} GB")

练习2：部署70B模型的不同方案

python 复制代码

# 方案A: 纯TP (8卡单节点)
llm_a = LLM(model="meta-llama/Llama-3-70B-Instruct", tensor_parallel_size=8)

# 方案B: TP+PP (2节点×4卡)
llm_b = LLM(
    model="meta-llama/Llama-3-70B-Instruct",
    tensor_parallel_size=4,
    pipeline_parallel_size=2
)

# 方案C: 小TP+多副本 (2个4卡节点)
# 每个节点独立部署TP=4，上层Nginx负载均衡

常见陷阱

陷阱1：跨节点TP

症状：TP=16跨2个节点，延迟反而比单节点TP=8还高。

根因：跨节点TP通信走网络而非NVLink，带宽骤降（900GB/s→400GB/s）。

解决方案：TP限制在单节点内，跨节点使用PP或DP。

陷阱2：忽略通信开销

症状：TP=8理论上能跑很快，实际延迟不如预期。

根因：每层2次AllReduce，80层=160次同步，累积开销大。

解决方案：使用NVLink/NVSwitch，计算通信重叠。

陷阱3：EP负载不均

症状：MoE模型某些GPU利用率高，某些低。

根因：Expert路由不均衡，某些Expert被频繁激活。

解决方案：监控Expert负载，使用辅助损失平衡路由。

小结

TP：切分权重，节点内高效（NVLink），跨节点不建议
PP：切分层数，跨节点，有流水线气泡
DP：多副本，无通信，适合水平扩展
EP：分布Expert，All-to-All通信，MoE专用
混合策略：TP+PP用于超大规模，TP+EP用于MoE
通信优化：NCCL调优，GPUDirect RDMA，计算通信重叠

复习题

四种并行策略（TP/PP/DP/EP）各自解决什么问题？通信模式分别是什么？
为什么TP不建议跨节点？跨节点应该用什么策略？
一个405B模型需要32×H100部署。设计一个TP+PP的混合策略，说明每层TP和PP的分配。
MoE模型的EP为什么需要All-to-All通信？与TP的AllReduce有何不同？
如何验证分布式推理的通信是否成为瓶颈？你会监控哪些指标？

第7章：服务化架构：从模型到API

学习目标

理解大模型推理服务化的架构设计
掌握Triton Inference Server的部署
理解负载均衡和自动扩缩容
能够构建高可用的推理服务

7.1 推理服务架构演进

7.1.1 从单机到服务化

复制代码

阶段1：单机脚本
  Python脚本 → 加载模型 → 推理 → 输出
  问题：无法多用户并发，不可复用

阶段2：Flask/FastAPI包装
  HTTP API → 模型单例 → 推理
  问题：无队列管理，无批处理优化

阶段3：专用推理引擎
  vLLM/TensorRT-LLM → 内置批处理 → API
  特点：高性能，但缺乏服务治理

阶段4：推理服务平台
  ┌──────────────────────────────────────────────────┐
  │  API Gateway (Kong/APISIX)                       │
  │  ├─ 认证鉴权  ├─ 限流  ├─ 路由  ├─ 日志         │
  ├──────────────────────────────────────────────────┤
  │  Model Serving Layer (Triton/vLLM)               │
  │  ├─ 模型管理  ├─ 动态批处理  ├─ 多模型          │
  ├──────────────────────────────────────────────────┤
  │  Infrastructure (Kubernetes + GPU Operator)       │
  │  ├─ 自动扩缩容  ├─ 健康检查  ├─ 滚动更新        │
  └──────────────────────────────────────────────────┘

7.1.2 核心需求

需求	描述	方案
高并发	支持数百QPS	多实例 + 负载均衡
低延迟	P99 < 500ms	推理引擎优化
高可用	99.9%+	多副本 + 健康检查
弹性伸缩	自动扩缩	K8s HPA + GPU
多模型	同时服务多个模型	模型仓库管理
监控	全链路可观测	Prometheus + Grafana

7.2 Triton Inference Server

7.2.1 Triton架构

复制代码

┌─────────────────────────────────────────────────────┐
│                  Triton Inference Server              │
├─────────────────────────────────────────────────────┤
│  ┌──────────────────────────────────────────────┐   │
│  │              HTTP/gRPC API                     │   │
│  └────────────────────┬─────────────────────────┘   │
│                       │                              │
│  ┌────────────────────▼─────────────────────────┐   │
│  │              Scheduler                          │   │
│  │  ┌──────────┐  ┌──────────┐  ┌──────────┐    │   │
│  │  │Dynamic   │  │Sequence  │  │Priority  │    │   │
│  │  │Batching  │  │Batching  │  │Queue     │    │   │
│  │  └──────────┘  └──────────┘  └──────────┘    │   │
│  └────────────────────┬─────────────────────────┘   │
│                       │                              │
│  ┌────────────────────▼─────────────────────────┐   │
│  │              Model Instances                    │   │
│  │  ┌────────┐  ┌────────┐  ┌────────┐          │   │
│  │  │vLLM    │  │TRT-LLM │  │ONNX    │          │   │
│  │  │Backend │  │Backend │  │Backend │  ...     │   │
│  │  └────────┘  └────────┘  └────────┘          │   │
│  └──────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────┘

7.2.2 Triton + vLLM Backend

python 复制代码

# model_repository/llm/config.pbtxt
name: "llm"
backend: "python"
max_batch_size: 128

input [
  {
    name: "prompt"
    data_type: TYPE_STRING
    dims: [1]
  }
]

output [
  {
    name: "text_output"
    data_type: TYPE_STRING
    dims: [1]
  }
]

instance_group [
  {
    count: 1
    kind: KIND_GPU
    gpus: [0, 1, 2, 3]  # 4卡TP
  }
]

parameters [
  {
    key: "model_path"
    value: { string_value: "meta-llama/Llama-3-70B-Instruct" }
  },
  {
    key: "tensor_parallel_size"
    value: { string_value: "4" }
  }
]

dynamic_batching {
  preferred_batch_size: [1, 4, 8, 16, 32, 64]
  max_queue_delay_microseconds: 100000
}

7.2.3 vLLM Backend实现

python 复制代码

# model_repository/llm/1/model.py
import triton_python_backend_utils as pb_utils
from vllm import LLM, SamplingParams
import numpy as np

class TritonPythonModel:
    def initialize(self, args):
        """模型加载时调用一次"""
        model_path = args["model_path"]
        tp_size = int(args.get("tensor_parallel_size", 1))
        
        self.llm = LLM(
            model=model_path,
            tensor_parallel_size=tp_size,
            gpu_memory_utilization=0.90,
            max_model_len=8192
        )
        self.sampling_params = SamplingParams(
            temperature=0.7,
            top_p=0.9,
            max_tokens=512
        )
    
    def execute(self, requests):
        """处理推理请求"""
        prompts = []
        for request in requests:
            prompt = pb_utils.get_input_tensor_by_name(
                request, "prompt"
            ).as_numpy()[0].decode("utf-8")
            prompts.append(prompt)
        
        outputs = self.llm.generate(prompts, self.sampling_params)
        
        responses = []
        for output in outputs:
            text = output.outputs[0].text
            out_tensor = pb_utils.Tensor(
                "text_output", 
                np.array([text.encode("utf-8")], dtype=object)
            )
            responses.append(
                pb_utils.InferenceResponse([out_tensor])
            )
        
        return responses

7.3 负载均衡策略

7.3.1 策略对比

策略	原理	优点	缺点	适用场景
Round Robin	轮询	简单	不考虑负载	同构节点
Least Connections	最少连接	均衡	长连接不准确	异构节点
Consistent Hash	哈希路由	缓存友好	热点问题	Prefix Caching
Weighted	加权	灵活	需手动调权	混合硬件

7.3.2 Consistent Hash实现

python 复制代码

import hashlib

class ConsistentHash:
    """一致性哈希 - 利用Prefix Caching"""
    def __init__(self, nodes, replicas=100):
        self.replicas = replicas
        self.ring = {}
        self.sorted_keys = []
        
        for node in nodes:
            self.add_node(node)
    
    def _hash(self, key: str) -> int:
        return int(hashlib.md5(key.encode()).hexdigest(), 16)
    
    def add_node(self, node: str):
        for i in range(self.replicas):
            key = self._hash(f"{node}:{i}")
            self.ring[key] = node
        self.sorted_keys = sorted(self.ring.keys())
    
    def get_node(self, key: str) -> str:
        """根据system_prompt哈希路由到固定节点"""
        h = self._hash(key)
        for node_key in self.sorted_keys:
            if h <= node_key:
                return self.ring[node_key]
        return self.ring[self.sorted_keys[0]]

# 使用
nodes = ["vllm-1:8000", "vllm-2:8000", "vllm-3:8000"]
ch = ConsistentHash(nodes)

# 相同system_prompt路由到同一节点 → Prefix Caching命中
system_prompt = "You are a helpful assistant..."
node = ch.get_node(system_prompt)
print(f"Route to: {node}")

7.4 动态批处理

python 复制代码

# vLLM的动态批处理配置
from vllm import LLM

llm = LLM(
    model="meta-llama/Llama-3-8B-Instruct",
    # 动态批处理参数
    max_num_seqs=128,              # 最大并发序列
    max_num_batched_tokens=8192,   # 单batch最大token数
    max_paddings=256,              # 最大padding
    enable_chunked_prefill=True,   # 分块prefill
    max_num_prefills=32,           # 最大并发prefill
)

# 批处理效果：
# - 低负载时：请求即时处理，延迟低
# - 高负载时：自动合并请求，吞吐高
# - 关键在于max_queue_delay的平衡

7.5 高可用设计

7.5.1 健康检查

python 复制代码

from fastapi import FastAPI, Response
import torch

app = FastAPI()

@app.get("/health")
async def health_check():
    """Kubernetes Liveness Probe"""
    return {"status": "ok"}

@app.get("/ready")
async def readiness_check():
    """Kubernetes Readiness Probe"""
    if not torch.cuda.is_available():
        return Response(status_code=503)
    # 检查显存是否充足
    free_mem = torch.cuda.mem_get_info()[0]
    if free_mem < 1024 * 1024 * 1024:  # < 1GB
        return Response(status_code=503)
    return {"status": "ready"}

7.5.2 Kubernetes部署

yaml 复制代码

apiVersion: apps/v1
kind: Deployment
metadata:
  name: vllm-deployment
spec:
  replicas: 3
  selector:
    matchLabels:
      app: vllm
  template:
    metadata:
      labels:
        app: vllm
    spec:
      containers:
      - name: vllm
        image: vllm/vllm-openai:latest
        args:
        - --model meta-llama/Llama-3-8B-Instruct
        - --tensor-parallel-size 1
        - --gpu-memory-utilization 0.85
        - --port 8000
        ports:
        - containerPort: 8000
        resources:
          limits:
            nvidia.com/gpu: 1
        livenessProbe:
          httpGet:
            path: /health
            port: 8000
          initialDelaySeconds: 60
          periodSeconds: 10
        readinessProbe:
          httpGet:
            path: /health
            port: 8000
          initialDelaySeconds: 30
          periodSeconds: 5
        env:
        - name: HF_HOME
          value: /mnt/model-cache
        volumeMounts:
        - name: model-cache
          mountPath: /mnt/model-cache
      volumes:
      - name: model-cache
        persistentVolumeClaim:
          claimName: model-cache-pvc
---
apiVersion: v1
kind: Service
metadata:
  name: vllm-service
spec:
  selector:
    app: vllm
  ports:
  - port: 8000
    targetPort: 8000
  type: ClusterIP

7.5.3 灰度发布

yaml 复制代码

# 使用Istio进行流量分割
apiVersion: networking.istio.io/v1beta1
kind: VirtualService
metadata:
  name: vllm-vs
spec:
  hosts:
  - vllm-service
  http:
  - route:
    - destination:
        host: vllm-service
        subset: stable
      weight: 90  # 90%流量到稳定版
    - destination:
        host: vllm-service
        subset: canary
      weight: 10  # 10%流量到金丝雀版

动手练习

练习1：API Gateway配置

yaml 复制代码

# Kong API Gateway配置
services:
  - name: vllm-service
    url: http://vllm-service:8000
    routes:
      - name: vllm-chat
        paths:
          - /v1/chat/completions
        methods:
          - POST
    plugins:
      - name: rate-limiting
        config:
          minute: 100        # 每分钟100次
          policy: local
      - name: key-auth        # API Key认证

练习2：多模型Triton部署

bash 复制代码

# 模型仓库结构
model_repository/
├── llama3-8b/
│   ├── config.pbtxt
│   └── 1/
│       └── model.py
├── embedding/
│   ├── config.pbtxt
│   └── 1/
│       └── model.py
└── reranker/
    ├── config.pbtxt
    └── 1/
        └── model.py

# 启动Triton
tritonserver --model-repository=/models \
    --http-port=8000 \
    --grpc-port=8001 \
    --metrics-port=8002

常见陷阱

陷阱1：超时设置不合理

症状：长文本生成被HTTP超时截断。

根因：Gateway/负载均衡器默认超时30-60秒，但生成512 tokens可能需10-20秒，长文本更久。

解决方案：Gateway超时设为300秒，vLLM内部max_tokens限制输出长度。

陷阱2：健康检查过于激进

症状：Pod频繁重启。

根因：GPU初始化需要30-60秒，但健康检查10秒后就开始探测。

解决方案：initialDelaySeconds设为60秒以上。

陷阱3：共享存储瓶颈

症状：多Pod同时加载模型，存储IO打满。

根因：所有Pod从同一NFS/Ceph读取模型。

解决方案：使用节点本地缓存（hostPath）或容器镜像内置模型。

小结

服务架构：API Gateway → 推理引擎 → K8s基础设施
Triton：统一推理平台，支持多后端、动态批处理
负载均衡：Consistent Hash配合Prefix Caching提升缓存命中率
高可用：健康检查、多副本、灰度发布
K8s部署：GPU Operator + HPA自动扩缩容

复习题

推理服务化架构从单机到平台的演进过程中，每个阶段解决了什么问题？
Triton Inference Server的Dynamic Batching和vLLM的Continuous Batching有什么关系？如何配合使用？
为什么推荐使用Consistent Hash做负载均衡？它如何与Prefix Caching配合？
设计一个支持1000 QPS的推理服务集群，描述架构和各组件配置。
Kubernetes的Liveness Probe和Readiness Probe有什么区别？在推理服务中各应如何配置？

第8章：性能优化：从指标到方法论

学习目标

理解大模型推理的性能指标体系
掌握五阶段性能优化方法论
能够使用Profiling工具定位瓶颈
理解推测解码的原理和实现

8.1 性能指标体系

8.1.1 核心指标

复制代码

┌─────────────────────────────────────────────────────────┐
│                    性能指标体系                           │
├──────────────┬──────────────┬───────────────────────────┤
│   延迟指标    │   吞吐指标    │      资源效率指标          │
├──────────────┼──────────────┼───────────────────────────┤
│ TTFT         │ QPS          │ GPU利用率                  │
│ (首Token延迟) │ (每秒查询数)  │ MFU (模型FLOPs利用率)       │
├──────────────┼──────────────┼───────────────────────────┤
│ TPOT         │ TPS          │ 显存利用率                  │
│ (每Token延迟) │ (每秒Token数) │ 显存带宽利用率              │
├──────────────┼──────────────┼───────────────────────────┤
│ P50/P95/P99  │ 并发数        │ 通信开销占比               │
│ (分位数延迟)  │              │                           │
└──────────────┴──────────────┴───────────────────────────┘

8.1.2 指标监控

python 复制代码

import time
from collections import deque
import numpy as np

class PerformanceMonitor:
    """推理性能监控器"""
    def __init__(self, window_size=1000):
        self.ttft_window = deque(maxlen=window_size)  # 首Token延迟
        self.tpot_window = deque(maxlen=window_size)  # 每Token延迟
        self.req_latency = deque(maxlen=window_size)  # 请求总延迟
        self.total_tokens = 0
        self.total_requests = 0
        self.start_time = time.time()
    
    def record_request(self, ttft_ms, total_tokens, total_ms):
        self.ttft_window.append(ttft_ms)
        self.tpot_window.append(
            (total_ms - ttft_ms) / max(total_tokens - 1, 1)
        )
        self.req_latency.append(total_ms)
        self.total_tokens += total_tokens
        self.total_requests += 1
    
    def stats(self) -> dict:
        elapsed = time.time() - self.start_time
        return {
            "ttft_p50": np.percentile(self.ttft_window, 50),
            "ttft_p99": np.percentile(self.ttft_window, 99),
            "tpot_p50": np.percentile(self.tpot_window, 50),
            "tpot_p99": np.percentile(self.tpot_window, 99),
            "latency_p99": np.percentile(self.req_latency, 99),
            "qps": self.total_requests / elapsed,
            "tps": self.total_tokens / elapsed,
        }

8.2 五阶段优化方法论

复制代码

阶段1: 量化 (Quantization)
  FP16 → INT4/INT8/FP8
  显存: -50~75%, 吞吐: +2~4x
        ↓
阶段2: KV Cache优化
  PagedAttention + GQA/MQA + Prefix Caching
  显存利用率: +40~60%, 吞吐: +2~5x
        ↓
阶段3: 动态批处理
  Continuous/Inflight Batching
  吞吐: +5~10x
        ↓
阶段4: 算子优化
  FlashAttention + 算子融合 + CUDA Graph
  延迟: -20~40%
        ↓
阶段5: 推测解码
  Speculative Decoding
  延迟: -30~50% (高命中率场景)

8.2.1 优化效果矩阵

优化	显存	延迟	吞吐	难度	精度影响
INT4量化	-75%	-10%	+4x	低	<1%
PagedAttention	+56%利用率	不变	+2x	低	无
Continuous Batching	不变	+10%	+5x	低	无
FlashAttention	-	-20%	+1.5x	低	无
CUDA Graph	不变	-20%	不变	中	无
推测解码	不变	-30%	+1.5x	高	无

8.3 Profiling工具

8.3.1 PyTorch Profiler

python 复制代码

import torch
from torch.profiler import profile, ProfilerActivity

def profile_inference(model, input_ids):
    with profile(
        activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA],
        with_stack=True,
        record_shapes=True,
        profile_memory=True,
    ) as prof:
        with torch.no_grad():
            output = model(input_ids)
    
    # 打印关键统计
    print(prof.key_averages().table(
        sort_by="cuda_time_total", row_limit=10
    ))
    
    # 导出Chrome Trace
    prof.export_chrome_trace("trace.json")
    # 在 chrome://tracing 中打开 trace.json 查看时间线

# 使用
# profile_inference(model, input_ids)

8.3.2 Nsight Systems

bash 复制代码

# NVIDIA Nsight Systems 命令行Profiling
nsys profile \
    --trace=cuda,nvtx,osrt \
    --output=profile_report \
    python inference_script.py

# 查看报告
nsys stats profile_report.qdrep

8.3.3 vLLM内置Profiling

python 复制代码

from vllm import LLM
import os

os.environ["VLLM_TRACE_FUNCTION"] = "1"  # 开启函数追踪

llm = LLM(model="meta-llama/Llama-3-8B-Instruct")

# 生成后查看日志中的时间分布
# 关键指标：
# - model_execute_time: 模型执行时间
# - scheduler_time: 调度时间
# - sampler_time: 采样时间

8.4 推测解码（Speculative Decoding）

8.4.1 原理

复制代码

标准自回归解码：
step 1: "The" → 1次forward
step 2: "cat" → 1次forward
step 3: "sat" → 1次forward
...
100 tokens = 100次forward

推测解码：
step 1: Draft Model生成 "cat sat on the mat" (5 tokens)
step 2: Target Model一次forward验证5个token
        接受: "cat sat on" → 4个token
step 3: Draft Model继续生成 "the floor" → 验证...
50次forward可以生成100 tokens (50%命中率)

8.4.2 vLLM推测解码

python 复制代码

from vllm import LLM

llm = LLM(
    model="meta-llama/Llama-3-70B-Instruct",  # 目标模型
    speculative_model="meta-llama/Llama-3-8B-Instruct",  # 草稿模型
    num_speculative_tokens=5,  # 每次推测5个token
    speculative_draft_tensor_parallel_size=1,  # 草稿模型TP
)

# 效果：
# - 70B模型延迟降低30-50%
# - 草稿模型占用额外显存（8B ~16GB）
# - 命中率越高，加速越明显

8.4.3 命中率分析

python 复制代码

def analyze_speculative_efficiency(
    target_latency_ms,    # 目标模型单步延迟
    draft_latency_ms,     # 草稿模型单步延迟
    num_spec_tokens,      # 推测token数
    acceptance_rate       # 接受率
):
    """分析推测解码效率"""
    # 无推测：每token = target_latency_ms
    # 有推测：每批 = draft_latency_ms + target_latency_ms
    # 接受token数 = num_spec_tokens * acceptance_rate
    normal_tpt = 1 / target_latency_ms  # tokens/ms
    speculative_tpt = (num_spec_tokens * acceptance_rate) / \
                      (draft_latency_ms + target_latency_ms)
    
    speedup = speculative_tpt / normal_tpt
    
    return {
        "normal_tpt": normal_tpt * 1000,  # tokens/s
        "speculative_tpt": speculative_tpt * 1000,
        "speedup": speedup,
        "break_even_acceptance": draft_latency_ms / target_latency_ms
    }

# 示例
result = analyze_speculative_efficiency(
    target_latency_ms=10,   # 70B每步10ms
    draft_latency_ms=2,     # 8B每步2ms
    num_spec_tokens=5,
    acceptance_rate=0.7     # 70%命中率
)
print(f"加速比: {result['speedup']:.2f}x")

动手练习

练习1：Benchmark脚本

python 复制代码

import asyncio
import aiohttp
import time
import numpy as np

async def benchmark(
    url: str, 
    prompt: str, 
    num_requests: int = 100,
    concurrency: int = 10
):
    """并发压测脚本"""
    async def send_request(session, idx):
        start = time.time()
        async with session.post(
            f"{url}/v1/chat/completions",
            json={
                "model": "default",
                "messages": [{"role": "user", "content": prompt}],
                "max_tokens": 128
            }
        ) as resp:
            data = await resp.json()
            elapsed = time.time() - start
            tokens = len(data["choices"][0]["message"]["content"].split())
            return {
                "latency": elapsed,
                "tokens": tokens,
                "ttft": elapsed * 0.3  # 估算
            }
    
    async with aiohttp.ClientSession() as session:
        semaphore = asyncio.Semaphore(concurrency)
        
        async def bounded_request(idx):
            async with semaphore:
                return await send_request(session, idx)
        
        tasks = [bounded_request(i) for i in range(num_requests)]
        results = await asyncio.gather(*tasks)
    
    latencies = [r["latency"] for r in results]
    total_tokens = sum(r["tokens"] for r in results)
    total_time = sum(latencies)
    
    print(f"Requests: {num_requests}")
    print(f"Concurrency: {concurrency}")
    print(f"P50 latency: {np.percentile(latencies, 50):.2f}s")
    print(f"P99 latency: {np.percentile(latencies, 99):.2f}s")
    print(f"QPS: {num_requests / (total_time / concurrency):.2f}")
    print(f"TPS: {total_tokens / (total_time / concurrency):.2f}")

# asyncio.run(benchmark("http://localhost:8000", "What is AI?", 100, 10))

练习2：优化效果对比

python 复制代码

# 记录优化前后的指标变化
# 1. 基准：FP16 + 无优化
# 2. +INT4量化
# 3. +PagedAttention
# 4. +Continuous Batching
# 5. +FlashAttention
# 6. +Speculative Decoding

optimization_journey = [
    {"stage": "Baseline (FP16)", "tps": 100, "latency_p99": 5000},
    {"stage": "+INT4 Quant", "tps": 400, "latency_p99": 4500},
    {"stage": "+PagedAttention", "tps": 800, "latency_p99": 4500},
    {"stage": "+Continuous Batching", "tps": 4000, "latency_p99": 5000},
    {"stage": "+FlashAttention", "tps": 6000, "latency_p99": 4000},
    {"stage": "+Speculative Decoding", "tps": 9000, "latency_p99": 2800},
]

for stage in optimization_journey:
    print(f"{stage['stage']:30s} | TPS: {stage['tps']:5d} | "
          f"P99: {stage['latency_p99']:4d}ms")

常见陷阱

陷阱1：只看平均延迟

症状：平均延迟很低，但用户投诉慢。

根因：长尾请求（P99/P999）才是用户体验的关键。

解决方案：监控P50/P95/P99/P999，关注P99优化。

陷阱2：推测解码命中率低

症状：开启推测解码后反而更慢。

根因：草稿模型与目标模型分布差异大，命中率<20%。

解决方案：使用同系列的小模型（如Llama-3-8B草稿→Llama-3-70B目标），或调整推测token数。

陷阱3：优化顺序错误

症状：先做推测解码，但显存都不够。

根因：没有遵循五阶段优化顺序。

解决方案：严格按量化→KV Cache→批处理→算子→推测解码的顺序。

小结

性能指标：TTFT（首Token）、TPOT（每Token）、P99延迟、QPS、TPS
五阶段优化：量化→KV Cache→批处理→算子→推测解码
Profiling：PyTorch Profiler、Nsight Systems、vLLM内置追踪
推测解码：小模型草稿+大模型验证，延迟降低30-50%
优化顺序：先解决显存瓶颈，再解决计算瓶颈

复习题

TTFT和TPOT分别衡量什么？为什么两者都很重要？
五阶段优化方法论中，哪个阶段对吞吐的提升最大？哪个对延迟的降低最明显？
推测解码的加速比如何计算？什么情况下推测解码反而会变慢？
使用PyTorch Profiler，如何定位GPU计算瓶颈？你会关注哪些指标？
一个推理服务的P50延迟是200ms，但P99延迟是3000ms。可能的原因是什么？如何排查？

第9章：生产环境部署：从开发到上线

学习目标

理解生产环境部署的全流程
掌握Prometheus + Grafana监控体系
理解日志、告警和分布式追踪
掌握安全和合规最佳实践

9.1 生产环境部署全景

复制代码

┌─────────────────────────────────────────────────────────┐
│                    生产环境部署全景                        │
├─────────────────────────────────────────────────────────┤
│                                                          │
│  ┌──────────────────────────────────────────────────┐   │
│  │              CI/CD Pipeline                        │   │
│  │  Build → Test → Package → Deploy → Verify        │   │
│  └──────────────────────────────────────────────────┘   │
│                         │                                │
│  ┌──────────────────────▼───────────────────────────┐   │
│  │              Kubernetes Cluster                    │   │
│  │  ┌─────────┐  ┌─────────┐  ┌─────────┐          │   │
│  │  │ vLLM    │  │ vLLM    │  │ vLLM    │          │   │
│  │  │ Pod     │  │ Pod     │  │ Pod     │          │   │
│  │  └────┬────┘  └────┬────┘  └────┬────┘          │   │
│  │       └────────────┼────────────┘                │   │
│  │                    │                              │   │
│  │  ┌─────────────────▼────────────────────────┐    │   │
│  │  │           Monitoring Stack                 │    │   │
│  │  │  Prometheus → Grafana → AlertManager      │    │   │
│  │  │  OpenTelemetry → Jaeger (分布式追踪)      │    │   │
│  │  │  Fluentd → Elasticsearch → Kibana (日志)  │    │   │
│  │  └──────────────────────────────────────────┘    │   │
│  └──────────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────────┘

9.2 Prometheus + Grafana监控

9.2.1 vLLM Metrics

python 复制代码

# vLLM内置Prometheus Metrics
# 启动时自动暴露在 /metrics 端点

# 关键指标：
# vllm:num_requests_running          - 当前运行请求数
# vllm:num_requests_waiting          - 等待队列长度
# vllm:num_requests_swapped          - 被swap的请求数
# vllm:gpu_cache_usage_perc          - KV Cache使用率
# vllm:gpu_prefix_cache_queries_total- Prefix Cache查询次数
# vllm:gpu_prefix_cache_hits_total   - Prefix Cache命中次数
# vllm:request_success_total         - 成功请求数
# vllm:request_prompt_tokens         - Prompt token数
# vllm:request_generation_tokens     - 生成token数
# vllm:time_to_first_token_seconds   - TTFT
# vllm:time_per_output_token_seconds - TPOT
# vllm:e2e_request_latency_seconds   - 端到端延迟

9.2.2 Prometheus配置

yaml 复制代码

# prometheus.yml
global:
  scrape_interval: 15s
  evaluation_interval: 15s

scrape_configs:
  - job_name: 'vllm'
    static_configs:
      - targets: ['vllm-service:8000']
    metrics_path: '/metrics'
    
  - job_name: 'kubernetes-pods'
    kubernetes_sd_configs:
      - role: pod
    relabel_configs:
      - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
        action: keep
        regex: true
      - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]
        action: replace
        target_label: __metrics_path__
        regex: (.+)
      - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]
        action: replace
        regex: ([^:]+)(?::\d+)?;(\d+)
        replacement: $1:$2
        target_label: __address__

9.2.3 Grafana Dashboard

json 复制代码

{
  "dashboard": {
    "title": "vLLM Production Monitor",
    "panels": [
      {
        "title": "QPS",
        "targets": [
          {"expr": "rate(vllm:request_success_total[1m])"}
        ]
      },
      {
        "title": "P99 Latency",
        "targets": [
          {"expr": "histogram_quantile(0.99, rate(vllm:e2e_request_latency_seconds_bucket[1m]))"}
        ]
      },
      {
        "title": "KV Cache Usage",
        "targets": [
          {"expr": "vllm:gpu_cache_usage_perc"}
        ]
      },
      {
        "title": "Prefix Cache Hit Rate",
        "targets": [
          {"expr": "rate(vllm:gpu_prefix_cache_hits_total[1m]) / rate(vllm:gpu_prefix_cache_queries_total[1m])"}
        ]
      },
      {
        "title": "Queue Length",
        "targets": [
          {"expr": "vllm:num_requests_waiting"}
        ]
      }
    ]
  }
}

9.3 告警策略

9.3.1 AlertManager规则

yaml 复制代码

# alerting_rules.yml
groups:
  - name: vllm_alerts
    rules:
      # 高延迟告警
      - alert: HighP99Latency
        expr: histogram_quantile(0.99, rate(vllm:e2e_request_latency_seconds_bucket[5m])) > 5
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "P99 latency > 5s"
          description: "P99 latency is {{ $value }}s, threshold is 5s"
      
      # KV Cache不足
      - alert: HighKVCacheUsage
        expr: vllm:gpu_cache_usage_perc > 0.95
        for: 2m
        labels:
          severity: critical
        annotations:
          summary: "KV Cache usage > 95%"
          description: "KV Cache at {{ $value | humanizePercentage }}"
      
      # 队列堆积
      - alert: RequestQueueBacklog
        expr: vllm:num_requests_waiting > 50
        for: 3m
        labels:
          severity: warning
        annotations:
          summary: "Request queue backlog > 50"
          description: "{{ $value }} requests waiting in queue"
      
      # GPU温度异常
      - alert: HighGPUTemperature
        expr: nvidia_gpu_temperature_celsius > 85
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "GPU temperature > 85°C"
      
      # 节点不可用
      - alert: VLLMInstanceDown
        expr: up{job="vllm"} == 0
        for: 1m
        labels:
          severity: critical
        annotations:
          summary: "vLLM instance {{ $labels.instance }} is down"

9.3.2 告警分级

级别	定义	响应时间	通知方式
Critical	服务中断，KV Cache耗尽	5分钟	电话 + 短信 + Slack
Warning	延迟升高，队列堆积	15分钟	Slack + 邮件
Info	资源使用率>80%	1小时	邮件

9.4 分布式追踪

9.4.1 OpenTelemetry集成

python 复制代码

# vLLM + OpenTelemetry
from opentelemetry import trace
from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor
from opentelemetry.instrumentation.fastapi import FastAPIInstrumentor

# 初始化
trace.set_tracer_provider(TracerProvider())
otlp_exporter = OTLPSpanExporter(endpoint="http://jaeger:4317")
trace.get_tracer_provider().add_span_processor(
    BatchSpanProcessor(otlp_exporter)
)

# 自动注入FastAPI
from fastapi import FastAPI
app = FastAPI()
FastAPIInstrumentor.instrument_app(app)

# 手动创建Span
tracer = trace.get_tracer(__name__)

@app.post("/v1/chat/completions")
async def chat(request: ChatRequest):
    with tracer.start_as_current_span("llm_inference") as span:
        span.set_attribute("model", "llama-3-70b")
        span.set_attribute("prompt_tokens", len(request.prompt))
        
        output = await llm.generate(request)
        
        span.set_attribute("output_tokens", len(output.tokens))
        span.set_attribute("ttft_ms", output.ttft)
        return output

9.4.2 追踪链路

复制代码

请求追踪链路示例：
┌─────────────────────────────────────────────────────────┐
│ API Gateway (5ms)                                       │
│  └─ Auth (2ms)                                          │
│  └─ Rate Limit (1ms)                                    │
│  └─ Route to vLLM                                       │
│                                                          │
│ vLLM Inference (250ms)                                  │
│  └─ Scheduler Wait (10ms)                               │
│  └─ Prefill (50ms)                                      │
│     └─ Tokenization (2ms)                               │
│     └─ Embedding Lookup (1ms)                           │
│     └─ Attention (30ms)                                 │
│     └─ FFN (15ms)                                       │
│  └─ Decode × 50 tokens (190ms)                          │
│     └─ Attention per token (2ms)                        │
│     └─ FFN per token (1.5ms)                            │
│     └─ Sampling (0.5ms)                                 │
└─────────────────────────────────────────────────────────┘

9.5 日志管理

9.5.1 结构化日志

python 复制代码

import structlog
import json

structlog.configure(
    processors=[
        structlog.stdlib.filter_by_level,
        structlog.stdlib.add_log_level,
        structlog.processors.TimeStamper(fmt="iso"),
        structlog.processors.StackInfoRenderer(),
        structlog.processors.format_exc_info,
        structlog.processors.JSONRenderer()
    ],
    context_class=dict,
    logger_factory=structlog.stdlib.LoggerFactory(),
)

logger = structlog.get_logger()

# 记录请求日志
@app.post("/v1/chat/completions")
async def chat(request: ChatRequest):
    logger.info(
        "inference_request",
        model="llama-3-70b",
        prompt_tokens=len(request.prompt),
        max_tokens=request.max_tokens,
        user_id=request.user_id
    )
    
    try:
        output = await llm.generate(request)
        logger.info(
            "inference_complete",
            output_tokens=len(output.tokens),
            ttft_ms=output.ttft,
            total_ms=output.total_time,
            cache_hit=output.prefix_cache_hit
        )
        return output
    except Exception as e:
        logger.error(
            "inference_failed",
            error=str(e),
            error_type=type(e).__name__
        )
        raise

9.5.2 日志采集

yaml 复制代码

# Fluentd配置
apiVersion: v1
kind: ConfigMap
metadata:
  name: fluentd-config
data:
  fluent.conf: |
    <source>
      @type tail
      path /var/log/vllm/*.log
      pos_file /var/log/vllm.pos
      tag vllm.logs
      <parse>
        @type json
      </parse>
    </source>
    
    <match vllm.logs>
      @type elasticsearch
      host elasticsearch-master
      port 9200
      logstash_format true
      logstash_prefix vllm-logs
      <buffer>
        @type file
        path /var/log/fluentd-buffers/vllm
        flush_interval 10s
      </buffer>
    </match>

9.6 安全最佳实践

9.6.1 API认证

python 复制代码

from fastapi import FastAPI, Depends, HTTPException, Security
from fastapi.security import HTTPBearer, HTTPAuthorizationCredentials

app = FastAPI()
security = HTTPBearer()

API_KEYS = {
    "sk-prod-xxx": {"tier": "premium", "rate_limit": 1000},
    "sk-test-yyy": {"tier": "basic", "rate_limit": 100},
}

async def verify_api_key(
    credentials: HTTPAuthorizationCredentials = Security(security)
):
    api_key = credentials.credentials
    if api_key not in API_KEYS:
        raise HTTPException(status_code=403, detail="Invalid API key")
    return API_KEYS[api_key]

@app.post("/v1/chat/completions")
async def chat(
    request: ChatRequest,
    user: dict = Depends(verify_api_key)
):
    # 用户信息已通过API Key验证
    ...

9.6.2 输入校验

python 复制代码

from pydantic import BaseModel, Field, validator

class ChatRequest(BaseModel):
    messages: list[dict]
    max_tokens: int = Field(default=512, le=4096)
    temperature: float = Field(default=0.7, ge=0, le=2.0)
    top_p: float = Field(default=0.9, ge=0, le=1.0)
    
    @validator("messages")
    def validate_messages(cls, v):
        if len(v) == 0:
            raise ValueError("messages cannot be empty")
        if len(v) > 100:
            raise ValueError("too many messages (max 100)")
        
        total_chars = sum(len(m.get("content", "")) for m in v)
        if total_chars > 100000:  # 约25000 tokens
            raise ValueError("input too long")
        
        return v

9.6.3 内容安全过滤

python 复制代码

# 推理后安全检查
def check_output_safety(text: str) -> bool:
    """检查输出内容安全性"""
    # 1. 检查敏感词
    # 2. 检查PII泄露
    # 3. 检查代码注入
    # 实际应使用专业的内容安全API
    return True

@app.post("/v1/chat/completions")
async def chat(request: ChatRequest):
    output = await llm.generate(request)
    
    if not check_output_safety(output.text):
        logger.warning("content_safety_blocked", user_id=request.user_id)
        raise HTTPException(
            status_code=400, 
            detail="Content blocked by safety filter"
        )
    
    return output

动手练习

练习1：配置Grafana Dashboard

bash 复制代码

# 1. 导入预配置的Dashboard JSON
# 2. 关键面板：
#    - QPS vs Latency 散点图
#    - KV Cache使用率时间序列
#    - P50/P95/P99延迟时间序列
#    - GPU利用率和显存热力图
#    - 请求队列长度趋势

练习2：部署完整监控栈

bash 复制代码

# 部署Prometheus Stack
helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm install prometheus prometheus-community/kube-prometheus-stack \
    --namespace monitoring \
    --create-namespace \
    --set grafana.adminPassword=admin123

# 部署Jaeger分布式追踪
kubectl apply -f https://github.com/jaegertracing/jaeger-operator/releases/latest/download/jaeger-operator.yaml

# 部署ELK日志栈
helm install elasticsearch elastic/elasticsearch
helm install kibana elastic/kibana
helm install fluentd fluent/fluentd

常见陷阱

陷阱1：监控数据爆炸

症状：Prometheus存储快速增长，查询变慢。

根因：采集了过多指标或过于频繁。

解决方案：降低采集频率（15s→30s），只保留关键指标，设置retention策略。

陷阱2：告警疲劳

症状：收到大量告警，大部分是误报，人开始忽略告警。

根因：阈值设置不合理，缺少告警聚合。

解决方案：调高阈值，增加for持续时间，聚合相同类型的告警。

陷阱3：日志不结构化

症状：排查问题时日志难以搜索和分析。

根因：使用print而非结构化日志，缺少关键字段。

解决方案：统一使用JSON格式日志，包含request_id、user_id、model等关键字段。

小结

监控体系：Prometheus采集指标 + Grafana可视化 + AlertManager告警
核心指标：QPS、P99延迟、KV Cache使用率、Prefix Cache命中率、队列长度
告警策略：三级分级（Critical/Warning/Info），不同响应时间
分布式追踪：OpenTelemetry + Jaeger，全链路延迟分析
日志管理：结构化JSON日志 + Fluentd采集 + Elasticsearch存储
安全实践：API Key认证、Pydantic校验、内容安全过滤

复习题

vLLM暴露了哪些Prometheus指标？每个指标分别衡量什么？
如何设计一个三级告警体系？Critical、Warning、Info级别的典型告警规则是什么？
分布式追踪中，一个推理请求的完整链路包含哪些阶段？每个阶段的典型耗时是多少？
为什么推荐使用结构化日志而非print？结构化日志至少应包含哪些字段？
设计一个推理服务的安全架构，包括认证、鉴权、输入校验和内容安全。分别用什么方案？

第10章：成本优化与未来趋势

学习目标

理解大模型推理的TCO（总拥有成本）模型
掌握GPU选型和成本优化策略
理解MoE架构的成本优势
了解大模型推理的未来趋势

10.1 TCO模型

10.1.1 成本构成

复制代码

┌─────────────────────────────────────────────────────────┐
│                    推理TCO模型                            │
├─────────────────────────────────────────────────────────┤
│                                                          │
│  硬件成本 (40-50%)                                       │
│  ├─ GPU服务器采购/租赁                                   │
│  ├─ 网络设备 (InfiniBand/RoCE)                          │
│  └─ 存储 (NVMe/分布式存储)                               │
│                                                          │
│  运营成本 (30-40%)                                       │
│  ├─ 电力 (GPU功耗 + 散热)                                │
│  ├─ 机房/云服务费                                        │
│  └─ 运维人力                                             │
│                                                          │
│  软件成本 (10-15%)                                       │
│  ├─ 推理引擎 (开源/商业)                                 │
│  ├─ 监控/日志/安全工具                                   │
│  └─ 模型API调用费                                        │
│                                                          │
│  隐性成本 (5-10%)                                        │
│  ├─ 模型更新/重训练延迟                                  │
│  ├─ 服务中断损失                                         │
│  └─ 安全合规成本                                         │
└─────────────────────────────────────────────────────────┘

10.1.2 成本计算器

python 复制代码

class InferenceCostCalculator:
    """推理成本计算器"""
    def __init__(self):
        # GPU单价（云租赁，$/小时）
        self.gpu_prices = {
            "A100-80GB": 3.50,
            "H100-80GB": 5.00,
            "H200-141GB": 7.00,
            "A10-24GB": 1.20,
            "L40S-48GB": 1.80,
        }
    
    def calculate_tco(
        self,
        gpu_type: str,
        num_gpus: int,
        tps_per_gpu: int,      # 每GPU的TPS
        daily_requests: int,   # 日均请求量
        avg_tokens_per_request: int = 256,
        utilization: float = 0.7
    ):
        """计算TCO"""
        # 1. GPU成本
        gpu_hourly = self.gpu_prices[gpu_type] * num_gpus
        gpu_monthly = gpu_hourly * 24 * 30
        
        # 2. 处理能力
        total_tps = tps_per_gpu * num_gpus * utilization
        daily_tokens = daily_requests * avg_tokens_per_request
        gpu_hours_needed = daily_tokens / (total_tps * 3600)
        
        # 3. 单位成本
        cost_per_1k_tokens = (gpu_hourly * gpu_hours_needed) / \
                             (daily_tokens / 1000) * 1000
        
        return {
            "gpu_monthly_cost": gpu_monthly,
            "gpu_hours_needed_per_day": gpu_hours_needed,
            "cost_per_1k_tokens": cost_per_1k_tokens,
            "utilization": gpu_hours_needed / 24,
            "can_handle": daily_tokens <= total_tps * 3600 * 24
        }

# 示例
calc = InferenceCostCalculator()
result = calc.calculate_tco(
    gpu_type="H100-80GB",
    num_gpus=8,
    tps_per_gpu=5000,  # 量化后TPS
    daily_requests=10_000_000,
    avg_tokens_per_request=256
)
print(f"月GPU成本: ${result['gpu_monthly_cost']:,.0f}")
print(f"每1K tokens成本: ${result['cost_per_1k_tokens']:.4f}")

10.2 GPU选型指南

10.2.1 主流GPU对比

GPU	显存	带宽	FP16 TFLOPS	功耗	云价格	最佳场景
A10	24GB	600GB/s	31.2	150W	$1.2/h	7B模型
A100-80GB	80GB	2039GB/s	312	400W	$3.5/h	70B模型
L40S	48GB	864GB/s	91.6	350W	$1.8/h	13B模型
H100	80GB	3352GB/s	989	700W	$5.0/h	70B+模型
H200	141GB	4800GB/s	989	700W	$7.0/h	180B+模型

10.2.2 选型决策树

复制代码

需要部署的模型大小？
├─ < 14B
│  ├─ 需要FP8? → H100 (1卡)
│  └─ 不需要  → A10/L40S (1卡, 最便宜)
├─ 14B-34B
│  ├─ 需要FP8? → H100 (1-2卡)
│  └─ 不需要  → A100 (1-2卡)
├─ 34B-70B
│  ├─ 单节点  → A100×8 或 H100×4
│  └─ 多节点  → H100×8 (TP=8)
└─ 70B+
   ├─ 405B    → H100×32 (TP=8 + PP=4)
   └─ MoE     → H200 (大显存对EP友好)

10.3 成本优化策略

10.3.1 策略全景

策略	节省幅度	实现难度	权衡
模型量化	50-75%	低	精度损失<1%
MoE架构	30-50%	中	显存增加
Spot实例	60-80%	低	可能被中断
自动扩缩容	30-50%	中	冷启动延迟
多模型共享GPU	20-40%	高	调度复杂
边缘部署	40-60%	高	硬件限制

10.3.2 Spot实例策略

python 复制代码

import asyncio

class SpotInstanceManager:
    """Spot实例管理器 - 成本优化"""
    def __init__(self):
        self.on_demand_nodes = []  # 按需实例（保证可用）
        self.spot_nodes = []       # Spot实例（成本低）
        self.min_on_demand = 2     # 最少按需实例数
    
    async def scale(self, current_qps: float, target_qps_per_node: float):
        """根据负载调整实例"""
        total_capacity = len(self.spot_nodes) + len(self.on_demand_nodes)
        needed_capacity = current_qps / target_qps_per_node * 1.2  # 20% buffer
        
        if needed_capacity > total_capacity:
            # 需要扩容
            to_add = int(needed_capacity - total_capacity)
            # 优先使用Spot实例
            for _ in range(to_add):
                try:
                    node = await self.request_spot_instance()
                    self.spot_nodes.append(node)
                except SpotUnavailable:
                    # Spot不可用，使用按需
                    node = await self.request_on_demand_instance()
                    self.on_demand_nodes.append(node)
        
        elif needed_capacity < total_capacity - 1:
            # 缩容 - 优先回收Spot
            to_remove = int(total_capacity - needed_capacity)
            while to_remove > 0 and self.spot_nodes:
                node = self.spot_nodes.pop()
                await self.drain_and_terminate(node)
                to_remove -= 1
    
    async def handle_spot_interruption(self, node):
        """处理Spot实例中断通知（2分钟预警）"""
        logger.warning(f"Spot instance {node.id} interruption notice")
        # 1. 停止向该节点发送新请求
        self.drain_node(node)
        # 2. 等待当前请求完成
        await asyncio.sleep(120)
        # 3. 如果按需实例不足，补充
        if len(self.on_demand_nodes) < self.min_on_demand:
            new_node = await self.request_on_demand_instance()
            self.on_demand_nodes.append(new_node)

10.3.3 自动扩缩容

yaml 复制代码

# KEDA (Kubernetes Event-Driven Autoscaling) 配置
apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: vllm-autoscaler
spec:
  scaleTargetRef:
    name: vllm-deployment
  minReplicaCount: 2
  maxReplicaCount: 10
  triggers:
  - type: prometheus
    metadata:
      serverAddress: http://prometheus-server.monitoring:9090
      metricName: vllm_num_requests_waiting
      threshold: "20"        # 等待请求>20时扩容
      query: |
        sum(vllm:num_requests_waiting)
  - type: prometheus
    metadata:
      serverAddress: http://prometheus-server.monitoring:9090
      metricName: vllm_queue_latency_seconds
      threshold: "5"         # 队列延迟>5s时扩容
      query: |
        avg(vllm:queue_latency_seconds)

10.4 MoE架构的成本优势

10.4.1 计算比较

复制代码

Dense 70B vs MoE 8×7B (56B参数, 14B激活):
┌──────────────┬──────────────┬──────────────┐
│    指标       │  Dense 70B   │  MoE 8×7B    │
├──────────────┼──────────────┼──────────────┤
│ 总参数量      │ 70B          │ 56B          │
│ 激活参数量    │ 70B          │ 14B          │
│ 每次推理FLOPs │ 140T         │ 28T          │
│ 推理延迟      │ 300ms        │ 150ms        │
│ 显存需求      │ 140GB        │ 112GB(+路由) │
│ 每token成本   │ $0.0005      │ $0.0002      │
│ 质量          │ 基准          │ 接近/相当    │
└──────────────┴──────────────┴──────────────┘

结论: MoE以更少的计算量获得接近的质量，推理成本降低60%

10.4.2 MoE部署策略

python 复制代码

# MoE部署：TP + EP 混合
from vllm import LLM

# Mixtral 8×7B: 8卡部署
llm = LLM(
    model="mistralai/Mixtral-8x7B-Instruct-v0.1",
    tensor_parallel_size=2,      # 每个Expert使用2卡TP
    expert_parallel_size=4,      # 8个Expert分布到4组
    # 总共: 2×4 = 8 GPUs
    gpu_memory_utilization=0.90
)

# 成本对比：
# Dense 70B: 需要8×H100 TP=8 → $40/h
# MoE 8×7B: 需要8×H100 TP=2+EP=4 → $40/h
# 但MoE延迟减半 → 等效吞吐翻倍 → 单位成本减半

10.5 未来趋势

10.5.1 硬件演进

复制代码

┌─────────────────────────────────────────────────────────┐
│                    硬件路线图                             │
├──────────────┬──────────────┬──────────────┬────────────┤
│    2024      │    2025      │    2026      │   2027+    │
├──────────────┼──────────────┼──────────────┼────────────┤
│ H100/H200    │ B100/B200    │ Rubin        │ 下一代     │
│ 80GB/141GB   │ 192GB/288GB  │ 384GB+       │ 1TB+       │
│ 3.3/4.8TB/s  │ 8TB/s       │ 12TB/s+      │ 20TB/s+    │
│ FP8原生      │ FP4原生      │ FP4优化      │ 稀疏计算   │
└──────────────┴──────────────┴──────────────┴────────────┘

10.5.2 推理算法演进

趋势	描述	影响
投机解码2.0	多草稿模型 + 树形验证	延迟再降50%
动态稀疏	每个token激活不同参数子集	计算量减少70%
KV Cache压缩	跨层共享KV + 自适应压缩	显存减少80%
异步推理	预计算+批处理解耦	吞吐提升3x
端侧推理	量化+蒸馏到手机/PC	成本趋零

10.5.3 服务模式演进

复制代码

当前：API调用模式
  Client → POST /v1/chat/completions → 同步等待 → Response

未来：流式管道模式
  Client → WebSocket → [推理Pipeline] → 流式输出
         ├─ 实时Token生成
         ├─ 工具调用 (Function Calling)
         ├─ 多模态输入 (Image/Audio)
         └─ 思维链推理 (Chain-of-Thought)

Agent模式：
  Client → Agent Orchestrator → 多个推理调用
         ├─ 规划 (Planning)
         ├─ 工具使用 (Tool Use)
         ├─ 反思 (Reflection)
         └─ 多Agent协作

动手练习

练习1：成本对比分析

python 复制代码

import pandas as pd

# 假设：日均1000万请求，每个请求平均256 tokens
# 比较不同方案的月成本

scenarios = [
    {
        "name": "A100×8 (FP16, 70B)",
        "gpu": "A100-80GB", "num": 8, "tps": 2000,
        "hourly": 3.50, "utilization": 0.7
    },
    {
        "name": "H100×8 (FP8, 70B)",
        "gpu": "H100-80GB", "num": 8, "tps": 5000,
        "hourly": 5.00, "utilization": 0.7
    },
    {
        "name": "H100×8 (INT4, 70B)",
        "gpu": "H100-80GB", "num": 8, "tps": 8000,
        "hourly": 5.00, "utilization": 0.7
    },
    {
        "name": "H100×8 (MoE, 8×7B)",
        "gpu": "H100-80GB", "num": 8, "tps": 10000,
        "hourly": 5.00, "utilization": 0.7
    },
]

for s in scenarios:
    daily_tokens = 10_000_000 * 256
    total_tps = s["tps"] * s["num"] * s["utilization"]
    hours_needed = daily_tokens / (total_tps * 3600)
    monthly_cost = s["hourly"] * s["num"] * hours_needed * 30
    cost_per_1m = monthly_cost / (10_000_000 * 30) * 1_000_000
    
    print(f"{s['name']:30s} | "
          f"月成本: ${monthly_cost:,.0f} | "
          f"每1M tokens: ${cost_per_1m:.2f}")

练习2：Spot实例策略实现

python 复制代码

# 实现一个简单的Spot实例管理策略
# 1. 监控Spot中断信号
# 2. 优雅地排空请求
# 3. 自动切换到按需实例

常见陷阱

陷阱1：只看GPU价格，忽略利用率

症状：选了便宜的GPU，但利用率只有30%，实际成本更高。

根因：便宜的GPU性能不足，需要更多台，但负载不饱和。

解决方案：计算单位成本 = GPU价格 / (TPS × 利用率)，选性价比最高的。

陷阱2：Spot实例无保护

症状：所有节点都是Spot实例，同时被回收导致服务中断。

根因：没有保留按需实例作为Buffer。

解决方案：至少保留30%按需实例，Spot实例分散在不同可用区。

陷阱3：忽略MoE路由开销

症状：MoE模型推理延迟比预期高。

根因：没有考虑All-to-All通信开销。

解决方案：MoE部署在单节点内（NVLink），减少跨节点路由通信。

小结

TCO模型：硬件40-50% + 运营30-40% + 软件10-15% + 隐性5-10%
GPU选型：根据模型大小和精度需求选择，小模型用A10/L40S，大模型用H100/H200
成本优化：量化(50-75%) + MoE(30-50%) + Spot(60-80%) + 自动扩缩容(30-50%)
MoE优势：激活参数少，计算量降低80%，单位成本降低60%
未来趋势：硬件显存持续增长，算法持续优化，Agent模式带来新需求

复习题

推理服务的TCO包含哪些组成部分？哪个部分占比最大？
如何根据模型大小选择GPU？7B、70B、405B分别推荐什么GPU配置？
MoE架构为什么能降低推理成本？计算量降低的比例是多少？
Spot实例的成本优势很大，但有什么风险？如何设计一个可靠的Spot实例策略？
展望未来3年，大模型推理最可能发生哪些变革？硬件、算法、服务模式各举一个例子。