大模型推理架构 TGI vs vLLM

TGI/vLLM 技术学习文档

一、概述

1.1 TGI (Text Generation Inference)

TGI 是 Hugging Face 推出的高性能文本生成推理框架，专为大规模语言模型设计。其主要特点包括：

张量并行 (Tensor Parallelism)：支持多GPU分布式推理
连续批处理 (Continuous Batching)：动态批处理请求，提升GPU利用率
Flash Attention：优化的注意力计算
量化支持：INT8、INT4量化推理
OpenAI兼容API：便于迁移和集成

1.2 vLLM

vLLM 是伯克利大学开源的高性能推理引擎，核心技术创新是 PagedAttention：

PagedAttention：虚拟内存分页管理，大幅减少内存碎片
连续批处理：动态调整批大小
张量并行：支持多GPU推理
多种量化方式：GPTQ、AWQ、SqueezeLLM等
PagedMemory管理：类似于操作系统的虚拟内存

二、核心技术原理

2.1 PagedAttention（vLLM核心创新）

传统KV Cache管理的问题：

复制代码

- 内存预先分配，容易产生碎片
- 连续内存限制了序列长度
- 内存利用率低，浪费严重

PagedAttention的解决方案：

python 复制代码

# vLLM使用非连续内存存储KV Cache
# 类似于操作系统的分页管理

# 逻辑页面 -> 物理页面的映射
logical_pages = [page_1, page_2, page_3, ...]
physical_pages = [frame_5, frame_3, frame_8, ...]  # 非连续存储

优势：

内存利用率提升 2-3x
支持更长的序列长度
动态内存分配，碎片少

2.2 连续批处理 (Continuous Batching)

传统静态批处理：

复制代码

Batch中的所有请求必须同时开始、同时结束
→ 资源浪费严重，尤其是生成长度差异大时

连续批处理：

复制代码

- 请求可以动态加入/退出批次
- 完成一个token就发送一个
- GPU利用率显著提升

python 复制代码

# 动态批处理示例
batch = [req1(pending: 50), req2(pending: 30), req3(pending: 100)]

# req2先完成 → 立即移除，req4可以加入
batch = [req1(pending: 49), req3(pending: 99), req4(new)]

2.3 张量并行 (Tensor Parallelism)

原理：将模型层分布在多个GPU上

复制代码

          Input
            |
    [Linear Layer]
    /      |      \
  GPU0   GPU1    GPU2
   |       |       |
 [W1]    [W2]    [W3]
   \      |      /
    [AllReduce]
            |
         Output

关键操作：

All-Reduce：聚合多个GPU的计算结果
Column/Row Parallelism：按权重矩阵切分

2.4 量化技术

量化方法	精度损失	内存节省	推理速度
FP16	无	~50%	基准
INT8	极小	~75%	快10-30%
INT4	小	~87.5%	快2-3x
GPTQ	小	~75%	接近无损
AWQ	小	~75%	接近无损

三、架构设计对比

3.1 TGI架构

复制代码

┌─────────────────────────────────────────────────────┐
│                    TGI Server                        │
├─────────────────────────────────────────────────────┤
│  ┌──────────┐  ┌──────────┐  ┌──────────────────┐   │
│  │  Router  │→│  Batcher │→│  Model Runner     │   │
│  └──────────┘  └──────────┘  └──────────────────┘   │
│                                          │          │
│  ┌──────────┐  ┌──────────┐  ┌──────────┴──┐       │
│  │  Tokenizer│ │ Quantizer│ │ Tensor Parallel│     │
│  └──────────┘  └──────────┘  └─────────────┘       │
└─────────────────────────────────────────────────────┘

3.2 vLLM架构

复制代码

┌─────────────────────────────────────────────────────┐
│                    vLLM Engine                       │
├─────────────────────────────────────────────────────┤
│  ┌─────────────┐  ┌──────────────────────────────┐  │
│  │ Scheduler   │→│  KV Cache Manager (Paged)     │  │
│  └─────────────┘  └──────────────────────────────┘  │
│                                          │          │
│  ┌──────────┐  ┌──────────┐  ┌──────────┴──┐       │
│  │  Batch   │→│   CUDA   │ │   Worker/Parallel│    │
│  │  Manager │ │  Graphs  │ └───────────────┘       │
│  └──────────┘  └──────────┘                         │
└─────────────────────────────────────────────────────┘

3.3 核心差异

特性	TGI	vLLM
KV Cache管理	连续分配	PagedAttention
内存效率	良好	更优
多模态支持	原生	需额外配置
量化方案	内置	外部支持
社区活跃度	高	非常高
部署难度	简单	中等

四、性能优化策略

4.1 内存优化

python 复制代码

# vLLM配置示例
from vllm import LLM, SamplingParams

llm = LLM(
    model="meta-llama/Llama-2-7b-hf",
    # 内存优化配置
    max_num_seqs=256,          # 最大序列数
    max_seq_len_to_capture=8192,  # KV cache捕获长度
    gpu_memory_utilization=0.9,   # GPU内存使用率
    enable_chunked_prefill=True,   # 分块预填充
)

4.2 计算优化

Flash Attention
- 减少内存访问
- 支持更长序列
- 2-4x加速
CUDA Graphs
- 减少内核启动开销
- 批量执行推理
算子融合
- 合并多个小算子
- 减少内存带宽压力

4.3 请求调度优化

python 复制代码

# 采样参数优化
sampling_params = SamplingParams(
    temperature=0.7,           # 温度控制随机性
    top_p=0.9,                 # Top-p采样
    max_tokens=4096,           # 最大生成长度
    stop_tokens=["<|endoftext|>"],
)

五、面试常见问题

5.1 基础概念题

Q1: 什么是KV Cache？为什么重要？

KV Cache是自回归解码时存储的Key-Value注意力矩阵。

生成每个新token时，只需计算新位置的attention
避免重复计算，大幅提升推理速度
内存占用大，是性能瓶颈

Q2: PagedAttention相比传统方案的优势？

内存利用率从_30%提升到90%+
支持更长序列（2-4倍）
动态内存分配，减少碎片
类似OS虚拟内存，优雅处理内存不足

Q3: 连续批处理和静态批处理的区别？

静态批处理：所有请求同步开始结束
连续批处理：请求动态加入退出
优势：GPU利用率提升2-3x，延迟更低

5.2 原理深入题

Q4: 解释Transformer推理的两个阶段

预填充阶段 (Prefill)
- 处理输入prompt
- 并行计算所有token的KV
- 延迟较高，但只发生一次
解码阶段 (Decode)
- 逐个生成token
- 串行计算
- 利用KV Cache加速

Q5: 如何优化长序列推理？

Flash Attention：减少O(N²)内存开销
稀疏注意力：局部window attention
KV Cache压缩：缓存重要token
分块计算：chunked prefill

Q6: 张量并行的通信开销如何优化？

流水线并行 vs 张量并行选择
通信与计算重叠
使用NVLink高速互联
梯度累积减少通信频率

5.3 实战应用题

Q7: 如何选择TGI还是vLLM？

场景	推荐	原因
快速部署	TGI	一键部署，简单易用
高吞吐	vLLM	PagedAttention内存效率高
多模态	TGI	原生支持
长序列	vLLM	PagedAttention优势
研究实验	两者皆可	社区活跃，文档完善

Q8: 生产环境部署注意事项

资源配置
- GPU显存评估
- 批大小调优
- 量化选择
监控告警
- GPU利用率
- 内存使用
- 请求延迟P99
容错处理
- 请求超时
- 显存溢出
- 节点故障

Q9: 如何排查推理性能问题？

bash 复制代码

# vLLM性能分析
# 1. 检查GPU利用率
nvidia-smi

# 2. 查看CUDA内核执行
nvprof --print-gpu-trace python inference.py

# 3. 内存分析
torch.cuda.memory_summary()

5.4 进阶问题

Q10: vLLM调度器的工作原理？

接收请求队列
预留内存块
调度执行批次
动态调整批大小
回收完成请求的内存

Q11: 量化推理如何保持精度？

校准数据集选择
敏感层保留高精
混合精度策略
GPTQ/AWQ等先进方法

Q12: 分布式训练vs推理的区别？

方面	训练	推理
梯度	需要	不需要
优化器	需要	不需要
批处理	同步	动态
精度要求	高	可适当降低
内存模式	固定	动态变化

六、实践配置示例

6.1 vLLM服务启动

bash 复制代码

# 单GPU
vllm serve meta-llama/Llama-2-7b-hf

# 多GPU张量并行
vllm serve meta-llama/Llama-2-70b-hf \
    --tensor-parallel-size 8

# 量化推理
vllm serve meta-llama/Llama-2-7b-chat-hf \
    --quantization awq

6.2 TGI服务启动

bash 复制代码

# 单GPU
text-generation-launcher --model-id meta-llama/Llama-2-7b-hf

# 多GPU
text-generation-launcher --model-id meta-llama/Llama-2-70b-hf \
    --num-shard 8

# 量化版本
text-generation-launcher --model-id meta-llama/Llama-2-7b-hf \
    --quantize int8

6.3 API调用

python 复制代码

import openai

# vLLM OpenAI兼容API
client = openai.OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="none"
)

response = client.chat.completions.create(
    model="meta-llama/Llama-2-7b-hf",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain PagedAttention"}
    ],
    temperature=0.7,
    max_tokens=512
)

七、参考资料

7.1 官方文档

7.2 关键论文

7.3 性能基准

八、总结要点

核心差异：vLLM的PagedAttention是其最大创新，内存效率显著优于传统方案
性能关键：连续批处理 + 量化 + 张量并行是提升吞吐的三大法宝
面试重点：KV Cache原理、PagedAttention机制、批处理策略、分布式通信
实践能力：能够独立部署和调优，理解各参数对性能的影响
趋势了解：持续关注Speculative Decoding、Prefix Caching等新技术的演进

文档版本：2025-01
持续更新中...