【推荐系统】深度学习训练框架（二十二）：PyTorch2.5 + TorchRec1.0超大规模模型分布式推理实战

- [1. 为什么需要分布式推理？](#1. 为什么需要分布式推理？)
- - [1.1 适用场景](#1.1 适用场景)
  - [1.2 分布式推理 vs 单机推理对比](#1.2 分布式推理 vs 单机推理对比)
- [2. 环境准备](#2. 环境准备)
- - [2.1 版本兼容性矩阵](#2.1 版本兼容性矩阵)
  - [2.2 分布式环境Dockerfile](#2.2 分布式环境Dockerfile)
  - [2.3 多节点部署配置](#2.3 多节点部署配置)
- [3. 分布式推理核心架构](#3. 分布式推理核心架构)
- - [3.1 架构设计](#3.1 架构设计)
  - [3.2 关键组件](#3.2 关键组件)
- [4. 模型定义与加载](#4. 模型定义与加载)
- - [4.1 分布式模型定义](#4.1 分布式模型定义)
  - [4.2 分布式推理加载函数](#4.2 分布式推理加载函数)
  - [4.3 环境初始化](#4.3 环境初始化)
- [5. 完整推理工作流](#5. 完整推理工作流)
- - [5.1 端到端分布式推理示例](#5.1 端到端分布式推理示例)
- [6. 高性能分布式API服务](#6. 高性能分布式API服务)
- - [6.1 Rank 0入口服务](#6.1 Rank 0入口服务)
  - [6.2 多节点协调机制](#6.2 多节点协调机制)
- [7. 性能优化技术](#7. 性能优化技术)
- - [7.1 分布式推理性能对比](#7.1 分布式推理性能对比)
  - [7.2 混合精度优化](#7.2 混合精度优化)
  - [7.3 通信优化](#7.3 通信优化)
- [8. 部署与监控](#8. 部署与监控)
- - [8.1 Kubernetes分布式部署](#8.1 Kubernetes分布式部署)
  - [8.2 分布式监控指标](#8.2 分布式监控指标)
- [9. 故障排除与调试](#9. 故障排除与调试)
- - [9.1 常见分布式问题排查](#9.1 常见分布式问题排查)
  - [9.2 分布式调试工具](#9.2 分布式调试工具)
- [10. 最佳实践与总结](#10. 最佳实践与总结)
- - [10.1 分布式推理决策矩阵](#10.1 分布式推理决策矩阵)
  - [10.2 生产环境检查清单](#10.2 生产环境检查清单)
  - [10.3 性能优化路线图](#10.3 性能优化路线图)
- [11. 附录：完整代码示例](#11. 附录：完整代码示例)
- - [11.1 启动脚本](#11.1 启动脚本)
  - [11.2 性能测试脚本](#11.2 性能测试脚本)

1. 为什么需要分布式推理？

1.1 适用场景

传统单机推理在以下场景会遇到瓶颈，需要分布式推理：

场景	单机推理限制	分布式推理优势
超大规模模型	单GPU内存不足（>80GB）	模型分片到多个GPU
超大嵌入表	嵌入表无法完整加载	嵌入表自动分片
低延迟要求	单GPU计算瓶颈	多GPU并行计算
严格一致性	与训练时行为不一致	保持完全相同的执行路径

1.2 分布式推理 vs 单机推理对比

特性	分布式推理	单机推理
模型大小支持	>1TB	<80GB
GPU内存利用率	高（分片存储）	低（完整模型）
通信开销	有（All-to-All）	无
部署复杂度	高	低
初始化时间	长（需要rank同步）	短
弹性扩展	支持	不支持
典型延迟	10-50ms	1-10ms
适用场景	超大规模CTR模型	常规推荐系统

关键决策点：只有当模型大小超过单GPU内存容量（通常A100 80GB）时，才需要考虑分布式推理。95%+的生产场景使用单机推理即可。

2. 环境准备

2.1 版本兼容性矩阵

组件	推荐版本	说明
PyTorch	2.5.0	基础框架，必须精确匹配
TorchRec	1.0.0	分布式推荐系统库
CUDA	12.1	GPU加速支持
NCCL	2.18.0+	多GPU通信库
torchvision	0.20.0	计算机视觉工具
torchaudio	2.5.0	音频处理工具
fastapi	0.115.0	Web服务框架
uvicorn	0.32.0	ASGI服务器

2.2 分布式环境Dockerfile

dockerfile 复制代码

# Dockerfile for TorchRec distributed inference (PyTorch 2.5.0 + TorchRec 1.0.0)
FROM pytorch/pytorch:2.5.0-cuda12.1-cudnn8-runtime

# 安装系统依赖
RUN apt-get update && apt-get install -y \
    libgl1 \
    libsm6 \
    curl \
    git \
    openssh-client \
    iputils-ping \
    netcat \
    && rm -rf /var/lib/apt/lists/*

# 安装Python依赖 - **精确版本匹配**
RUN pip install --no-cache-dir \
    torch==2.5.0 \
    torchrec==1.0.0 \
    torchvision==0.20.0 \
    torchaudio==2.5.0 \
    oss2==2.18.4 \
    fastapi==0.115.0 \
    uvicorn==0.32.0 \
    onnxruntime==1.19.0 \
    prometheus-client==0.21.0 \
    pydantic==2.8.0 \
    python-multipart==0.0.9 \
    requests==2.31.0 \
    tqdm==4.66.0 \
    torchmetrics==1.3.0

# 复制应用代码
COPY . /app/

# 复制模型文件（DCP格式）
COPY checkpoint/ /app/checkpoint/

# 设置工作目录
WORKDIR /app

# 环境变量
ENV MASTER_ADDR=localhost
ENV MASTER_PORT=29500
ENV WORLD_SIZE=1
ENV RANK=0
ENV DEVICE=cuda
ENV PORT=8000
ENV LOG_LEVEL=INFO

# 暴露端口
EXPOSE 8000 29500

# 健康检查
HEALTHCHECK --interval=30s --timeout=3s \
    CMD curl -f http://localhost:${PORT}/health || exit 1

# 启动命令
CMD ["python", "distributed_inference_server.py"]

2.3 多节点部署配置

yaml 复制代码

# docker-compose.yml - 多节点分布式推理
version: '3.8'
services:
  rank0:
    build: .
    runtime: nvidia
    environment:
      - MASTER_ADDR=rank0
      - MASTER_PORT=29500
      - WORLD_SIZE=4
      - RANK=0
      - DEVICE=cuda
    ports:
      - "8000:8000"
    networks:
      - torchrec-net
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

  rank1:
    build: .
    runtime: nvidia
    environment:
      - MASTER_ADDR=rank0
      - MASTER_PORT=29500
      - WORLD_SIZE=4
      - RANK=1
      - DEVICE=cuda
    networks:
      - torchrec-net
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

  rank2:
    build: .
    runtime: nvidia
    environment:
      - MASTER_ADDR=rank0
      - MASTER_PORT=29500
      - WORLD_SIZE=4
      - RANK=2
      - DEVICE=cuda
    networks:
      - torchrec-net
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

  rank3:
    build: .
    runtime: nvidia
    environment:
      - MASTER_ADDR=rank0
      - MASTER_PORT=29500
      - WORLD_SIZE=4
      - RANK=3
      - DEVICE=cuda
    networks:
      - torchrec-net
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

networks:
  torchrec-net:
    driver: bridge

3. 分布式推理核心架构

3.1 架构设计

客户端请求
负载均衡器
Rank 0 - 入口节点
Rank 1
Rank 2
Rank 3
嵌入表分片 1
嵌入表分片 2
嵌入表分片 3
通信: All-to-All
密集网络计算
结果聚合
Rank 0 - 返回结果
客户端响应

3.2 关键组件

组件	职责	实现要点
DistributedModelParallel	模型分片管理	保持与训练时相同的分片策略
AlltoAll通信	嵌入结果交换	使用`All2All`或`All2AllPooled`
Rank 0协调器	请求分发/结果收集	作为API入口点
DCP加载器	分布式状态加载	直接从DCP检查点加载
状态同步	模型状态一致性	确保所有rank加载相同版本

python 复制代码

import torch
import torch.distributed as dist
import torch.distributed.checkpoint as dcp
from torchrec.distributed.model_parallel import DistributedModelParallel
from torchrec.distributed.types import ModuleSharder
from typing import Dict, Any, Optional

class DistributedInferenceModel:
    """
    分布式推理模型管理器
    负责初始化、加载和执行分布式推理
    """
    
    def __init__(
        self,
        model_class,
        model_config: Dict[str, Any],
        checkpoint_dir: str,
        sharders: Optional[List[ModuleSharder]] = None,
        device: str = "cuda"
    ):
        self.model_class = model_class
        self.model_config = model_config
        self.checkpoint_dir = checkpoint_dir
        self.sharders = sharders
        self.device = device
        self.rank = dist.get_rank()
        self.world_size = dist.get_world_size()
        self.model = None
        self.is_initialized = False
    
    def initialize(self):
        """初始化分布式模型"""
        logging.info(f"[Rank {self.rank}] 🔄 初始化分布式推理模型...")
        
        try:
            # 1. 创建基础模型
            base_model = self.model_class(self.model_config)
            
            # 2. 应用DMP封装
            self.model = DistributedModelParallel(
                base_model,
                sharders=self.sharders,
                device=torch.device(self.device)
            )
            
            # 3. 加载检查点
            self._load_checkpoint()
            
            # 4. 设置为评估模式
            self.model.eval()
            
            # 5. 验证初始化
            self._validate_initialization()
            
            self.is_initialized = True
            logging.info(f"[Rank {self.rank}] ✅ 分布式模型初始化完成!")
            
        except Exception as e:
            logging.error(f"[Rank {self.rank}] ❌ 初始化失败: {str(e)}")
            raise
    
    def _load_checkpoint(self):
        """从DCP检查点加载模型状态"""
        logging.info(f"[Rank {self.rank}] 📥 从DCP检查点加载: {self.checkpoint_dir}")
        
        try:
            # 使用DCP直接加载，不需要转换
            state_dict = self.model.state_dict()
            
            # 创建存储读取器
            storage_reader = dcp.FileSystemReader(self.checkpoint_dir)
            
            # 加载状态
            dcp.load(
                state_dict,
                checkpoint_id=self.checkpoint_dir,
                storage_reader=storage_reader
            )
            
            # 设置状态
            self.model.load_state_dict(state_dict)
            
            logging.info(f"[Rank {self.rank}] ✅ 检查点加载成功!")
            
        except Exception as e:
            logging.error(f"[Rank {self.rank}] ❌ 检查点加载失败: {str(e)}")
            raise
    
    def _validate_initialization(self):
        """验证模型初始化正确性"""
        # 1. 检查模型参数
        param_count = sum(p.numel() for p in self.model.parameters())
        logging.info(f"[Rank {self.rank}]   - 模型参数数量: {param_count:,}")
        
        # 2. 检查分片状态
        shard_info = {}
        for name, module in self.model.named_modules():
            if hasattr(module, "_sharded_parameter"):
                shard_info[name] = module._sharded_parameter.sharding_spec
        
        if shard_info:
            logging.info(f"[Rank {self.rank}]   - 分片模块数量: {len(shard_info)}")
        
        # 3. 同步所有rank
        dist.barrier()
        logging.info(f"[Rank {self.rank}]   - 所有rank同步完成")
    
    def infer(self, inputs: Dict[str, Any]) -> Optional[torch.Tensor]:
        """
        执行分布式推理
        
        Args:
            inputs: 输入数据（仅rank 0需要提供完整输入）
        
        Returns:
            推理结果（仅rank 0返回，其他rank返回None）
        """
        if not self.is_initialized:
            raise RuntimeError("模型未初始化，请先调用initialize()")
        
        # 1. 广播输入到所有rank
        broadcasted_inputs = self._broadcast_inputs(inputs)
        
        # 2. 执行推理
        with torch.no_grad():
            outputs = self.model(broadcasted_inputs)
        
        # 3. 收集结果（仅rank 0）
        if self.rank == 0:
            return self._gather_results(outputs)
        return None
    
    def _broadcast_inputs(self, inputs: Dict[str, Any]) -> Dict[str, Any]:
        """将输入广播到所有rank"""
        if self.rank == 0:
            # Rank 0: 准备要广播的数据
            broadcast_data = {
                "sparse_features": inputs.get("sparse_features", {}),
                "dense_features": inputs.get("dense_features", [])
            }
            # 转换为张量
            broadcast_tensor = self._dict_to_tensor(broadcast_data)
            dist.broadcast(broadcast_tensor, src=0)
            return broadcast_data
        else:
            # 其他rank: 接收广播数据
            dummy_tensor = torch.zeros(1, dtype=torch.float32, device=self.device)
            dist.broadcast(dummy_tensor, src=0)
            # 从dummy_tensor恢复实际数据
            return self._tensor_to_dict(dummy_tensor)
    
    def _gather_results(self, local_outputs: torch.Tensor) -> torch.Tensor:
        """收集所有rank的结果"""
        # 1. 获取所有rank的输出形状
        output_shape = list(local_outputs.shape)
        output_shape_tensor = torch.tensor(output_shape, device=self.device)
        
        # 2. 收集形状信息
        all_shapes = [torch.zeros_like(output_shape_tensor) for _ in range(self.world_size)]
        dist.gather(output_shape_tensor, all_shapes if self.rank == 0 else None, dst=0)
        
        if self.rank != 0:
            return None
        
        # 3. 收集实际输出
        all_outputs = [torch.zeros(shape.tolist(), device=self.device) for shape in all_shapes]
        dist.gather(local_outputs, all_outputs, dst=0)
        
        # 4. 合并结果（根据业务逻辑）
        return self._merge_outputs(all_outputs)
    
    def _merge_outputs(self, outputs: List[torch.Tensor]) -> torch.Tensor:
        """合并来自所有rank的输出"""
        # 默认实现：简单拼接
        # 实际业务中可能需要更复杂的合并逻辑
        return torch.cat(outputs, dim=0)
    
    def _dict_to_tensor(self, data: Dict[str, Any]) -> torch.Tensor:
        """将字典转换为张量（简化版）"""
        # 实际实现需要序列化和反序列化
        return torch.tensor([1.0], device=self.device)
    
    def _tensor_to_dict(self, tensor: torch.Tensor) -> Dict[str, Any]:
        """将张量转换回字典（简化版）"""
        return {"placeholder": "value"}

4. 模型定义与加载

4.1 分布式模型定义

python 复制代码

import torch
import torch.nn as nn
from torchrec import EmbeddingBagCollection, EmbeddingBagConfig
from torchrec.distributed.types import ShardingType, ShardingPlan
from torchrec.distributed.embedding import EmbeddingShardingPlan

class DistributedTrainingModel(nn.Module):
    """
    分布式训练模型
    同时适用于分布式推理
    """
    
    def __init__(self, config: Dict[str, Any]):
        super().__init__()
        self.config = config
        
        # 1. 嵌入集合配置
        self.embedding_bag_collection = EmbeddingBagCollection(
            tables=[
                EmbeddingBagConfig(
                    name="user_features",
                    embedding_dim=config.get("embedding_dim", 128),
                    num_embeddings=config.get("num_user_embeddings", 10000000),
                    feature_names=["user_id", "user_age", "user_gender"]
                ),
                EmbeddingBagConfig(
                    name="item_features",
                    embedding_dim=config.get("embedding_dim", 128),
                    num_embeddings=config.get("num_item_embeddings", 5000000),
                    feature_names=["item_id", "item_category", "item_price"]
                )
            ],
            device=torch.device("meta")  # 使用meta设备避免初始化
        )
        
        # 2. 密集网络
        self.dense_net = nn.Sequential(
            nn.Linear(config.get("embedding_dim", 128) * 6 + config.get("dense_dim", 16), 1024),
            nn.ReLU(),
            nn.Linear(1024, 512),
            nn.ReLU(),
            nn.Linear(512, 256),
            nn.ReLU(),
            nn.Linear(256, 1)
        )
    
    def forward(self, sparse_features, dense_features):
        """
        分布式前向传播
        
        Args:
            sparse_features: KeyedJaggedTensor格式的稀疏特征
            dense_features: 密集特征张量
        
        Returns:
            预测值
        """
        # 1. 嵌入查找
        sparse_embeddings = self.embedding_bag_collection(sparse_features)
        
        # 2. 拼接嵌入
        concatenated_embeddings = torch.cat(
            [sparse_embeddings[name] for name in sparse_embeddings.keys()],
            dim=1
        )
        
        # 3. 拼接密集特征
        combined_features = torch.cat([concatenated_embeddings, dense_features], dim=1)
        
        # 4. 密集网络
        return self.dense_net(combined_features)

4.2 分布式推理加载函数

python 复制代码

def load_distributed_model_for_inference(
    checkpoint_dir: str,
    model_config: Dict[str, Any],
    sharders: Optional[List[ModuleSharder]] = None,
    device: str = "cuda"
) -> DistributedInferenceModel:
    """
    加载分布式模型用于推理
    
    Args:
        checkpoint_dir: DCP检查点目录
        model_config: 模型配置
        sharders: 分片器列表（可选，自动检测）
        device: 目标设备
    
    Returns:
        分布式推理模型管理器
    """
    logging.info("🔍 加载分布式推理模型...")
    logging.info(f"   - 检查点目录: {checkpoint_dir}")
    logging.info(f"   - 设备: {device}")
    logging.info(f"   - World size: {dist.get_world_size()}")
    logging.info(f"   - Rank: {dist.get_rank()}")
    
    try:
        # 1. 初始化DMP模型
        dist_model = DistributedInferenceModel(
            model_class=DistributedTrainingModel,
            model_config=model_config,
            checkpoint_dir=checkpoint_dir,
            sharders=sharders,
            device=device
        )
        
        # 2. 初始化模型
        dist_model.initialize()
        
        logging.info("✅ 分布式模型加载完成，准备推理")
        return dist_model
    
    except Exception as e:
        logging.error(f"❌ 分布式模型加载失败: {str(e)}")
        raise

4.3 环境初始化

python 复制代码

def initialize_distributed_environment():
    """
    初始化分布式环境
    必须在加载模型前调用
    """
    logging.info("🚀 初始化分布式环境...")
    
    try:
        # 1. 从环境变量获取配置
        master_addr = os.environ.get("MASTER_ADDR", "localhost")
        master_port = int(os.environ.get("MASTER_PORT", "29500"))
        world_size = int(os.environ.get("WORLD_SIZE", "1"))
        rank = int(os.environ.get("RANK", "0"))
        
        logging.info(f"   - Master地址: {master_addr}")
        logging.info(f"   - Master端口: {master_port}")
        logging.info(f"   - World size: {world_size}")
        logging.info(f"   - Rank: {rank}")
        
        # 2. 初始化进程组
        dist.init_process_group(
            backend="nccl",
            init_method=f"tcp://{master_addr}:{master_port}",
            world_size=world_size,
            rank=rank,
            timeout=datetime.timedelta(seconds=60)
        )
        
        # 3. 设置设备
        torch.cuda.set_device(rank)
        
        # 4. 验证初始化
        dist.barrier()
        logging.info(f"[Rank {rank}] ✅ 分布式环境初始化成功!")
        
        return world_size, rank
    
    except Exception as e:
        logging.error(f"[Rank {rank}] ❌ 分布式环境初始化失败: {str(e)}")
        raise

5. 完整推理工作流

5.1 端到端分布式推理示例

python 复制代码

def distributed_inference_workflow():
    """
    端到端分布式推理完整工作流
    """
    print("\n" + "=" * 60)
    print("🚀 TorchRec 分布式推理工作流 (PyTorch 2.5.0 + TorchRec 1.0.0)")
    print("=" * 60)
    
    # 步骤1: 初始化分布式环境
    print("\n" + "-" * 40)
    print("1️⃣ 初始化分布式环境")
    print("-" * 40)
    
    world_size, rank = initialize_distributed_environment()
    
    # 步骤2: 配置模型
    print("\n" + "-" * 40)
    print("2️⃣ 配置模型")
    print("-" * 40)
    
    model_config = {
        "embedding_dim": 128,
        "dense_dim": 16,
        "num_user_embeddings": 10000000,
        "num_item_embeddings": 5000000,
        "task_type": "classification"
    }
    
    if rank == 0:
        logging.info(f"📊 模型配置:")
        for key, value in model_config.items():
            logging.info(f"   - {key}: {value}")
    
    # 步骤3: 加载分布式模型
    print("\n" + "-" * 40)
    print("3️⃣ 加载分布式模型")
    print("-" * 40)
    
    CHECKPOINT_DIR = "checkpoint/final_model"
    
    dist_model = load_distributed_model_for_inference(
        checkpoint_dir=CHECKPOINT_DIR,
        model_config=model_config,
        device="cuda"
    )
    
    # 步骤4: 准备推理数据（仅rank 0）
    print("\n" + "-" * 40)
    print("4️⃣ 准备推理数据")
    print("-" * 40)
    
    sample_batch = None
    if rank == 0:
        batch_size = 128  # 大批次测试分布式性能
        sample_batch = {
            "sparse_features": {
                "user_id": torch.randint(0, 10000000, (batch_size,), dtype=torch.long),
                "user_age": torch.randint(0, 100, (batch_size,), dtype=torch.long),
                "user_gender": torch.randint(0, 2, (batch_size,), dtype=torch.long),
                "item_id": torch.randint(0, 5000000, (batch_size,), dtype=torch.long),
                "item_category": torch.randint(0, 1000, (batch_size,), dtype=torch.long),
                "item_price": torch.randint(0, 10000, (batch_size,), dtype=torch.long)
            },
            "dense_features": torch.randn(batch_size, 16)
        }
        
        logging.info(f"📊 输入批次信息 (Rank 0):")
        logging.info(f"   - 批次大小: {batch_size}")
        logging.info(f"   - 稀疏特征键: {list(sample_batch['sparse_features'].keys())}")
        logging.info(f"   - 密集特征形状: {sample_batch['dense_features'].shape}")
    
    # 同步所有rank
    dist.barrier()
    
    # 步骤5: 执行分布式推理
    print("\n" + "-" * 40)
    print("5️⃣ 执行分布式推理")
    print("-" * 40)
    
    start_time = time.time()
    predictions = dist_model.infer(sample_batch)
    inference_time = time.time() - start_time
    
    if rank == 0:
        logging.info(f"✅ 分布式推理完成!")
        logging.info(f"   - 推理时间: {inference_time:.4f} 秒")
        logging.info(f"   - 批次大小: {128}")
        logging.info(f"   - 平均每样本时间: {inference_time/128:.6f} 秒")
        logging.info(f"   - 预测值范围: [{predictions.min().item():.4f}, {predictions.max().item():.4f}]")
    
    # 步骤6: 性能分析
    print("\n" + "-" * 40)
    print("6️⃣ 性能分析")
    print("-" * 40)
    
    performance_results = test_distributed_performance(dist_model, world_size, rank)
    
    if rank == 0:
        analyze_distributed_performance(performance_results, world_size)
    
    # 步骤7: 清理
    print("\n" + "-" * 40)
    print("7️⃣ 清理资源")
    print("-" * 40)
    
    dist.destroy_process_group()
    logging.info(f"[Rank {rank}] ✅ 分布式环境清理完成")
    
    print("\n" + "=" * 60)
    print("🎉 分布式推理工作流完成!")
    print("=" * 60)

def test_distributed_performance(dist_model, world_size, rank):
    """测试分布式推理性能"""
    results = []
    
    if rank == 0:
        logging.info(f"📊 分布式性能测试 (World size: {world_size})")
        logging.info(f"{'批次大小':<8} | {'总时间(ms)':<12} | {'吞吐量(样本/秒)':<15} | {'内存(MB)':<12}")
        logging.info("-" * 70)
    
    batch_sizes = [32, 64, 128, 256, 512]
    
    for batch_size in batch_sizes:
        # 仅rank 0准备数据
        test_batch = None
        if rank == 0:
            test_batch = {
                "sparse_features": {
                    "user_id": torch.randint(0, 10000000, (batch_size,), dtype=torch.long),
                    "user_age": torch.randint(0, 100, (batch_size,), dtype=torch.long),
                    "user_gender": torch.randint(0, 2, (batch_size,), dtype=torch.long),
                    "item_id": torch.randint(0, 5000000, (batch_size,), dtype=torch.long),
                    "item_category": torch.randint(0, 1000, (batch_size,), dtype=torch.long),
                    "item_price": torch.randint(0, 10000, (batch_size,), dtype=torch.long)
                },
                "dense_features": torch.randn(batch_size, 16)
            }
        
        # 预热
        for _ in range(5):
            _ = dist_model.infer(test_batch)
        
        # 同步
        dist.barrier()
        
        # 性能测试
        start_time = time.time()
        
        for _ in range(20):
            _ = dist_model.infer(test_batch)
        
        # 同步
        dist.barrier()
        total_time = time.time() - start_time
        
        # 收集结果
        if rank == 0:
            avg_time_per_batch = total_time / 20
            throughput = batch_size * 20 / total_time
            
            # GPU内存
            gpu_memory_mb = torch.cuda.max_memory_allocated() / 1024 / 1024
            
            results.append({
                "batch_size": batch_size,
                "avg_time_per_batch": avg_time_per_batch,
                "throughput": throughput,
                "gpu_memory_mb": gpu_memory_mb
            })
            
            logging.info(f"{batch_size:<8} | {avg_time_per_batch*1000:<12.2f} | {throughput:<15.1f} | {gpu_memory_mb:<12.1f}")
    
    return results if rank == 0 else None

def analyze_distributed_performance(results, world_size):
    """分析分布式性能结果"""
    if not results:
        return
    
    logging.info(f"\n📈 分布式性能分析 (World size: {world_size})")
    
    # 找到最佳配置
    best_throughput = max(results, key=lambda x: x["throughput"])
    best_memory = min(results, key=lambda x: x["gpu_memory_mb"])
    
    logging.info(f"🏆 最佳吞吐量配置: 批次大小={best_throughput['batch_size']}")
    logging.info(f"   - 吞吐量: {best_throughput['throughput']:.1f} 样本/秒")
    logging.info(f"   - 延迟: {best_throughput['avg_time_per_batch']*1000:.2f} ms")
    
    logging.info(f"\n💾 最佳内存配置: 批次大小={best_memory['batch_size']}")
    logging.info(f"   - GPU内存: {best_memory['gpu_memory_mb']:.1f} MB")
    logging.info(f"   - 吞吐量: {best_memory['throughput']:.1f} 样本/秒")
    
    # 可扩展性分析
    logging.info(f"\n🔄 可扩展性建议:")
    logging.info("   - 增加world size可以支持更大模型")
    logging.info("   - 减小批次大小可以降低单rank内存压力")
    logging.info("   - 使用混合精度可以进一步提升性能")

if __name__ == "__main__":
    distributed_inference_workflow()

6. 高性能分布式API服务

6.1 Rank 0入口服务

python 复制代码

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel, Field
from typing import Dict, List, Optional, Any
import time
import json

app = FastAPI(title="TorchRec 分布式推理服务", version="1.0.0")

class DistributedInferenceRequest(BaseModel):
    sparse_features: Dict[str, List[int]] = Field(
        ...,
        description="稀疏特征字典",
        example={
            "user_id": [12345, 67890],
            "user_age": [25, 30],
            "user_gender": [1, 0],
            "item_id": [1001, 1002],
            "item_category": [5, 8],
            "item_price": [199, 299]
        }
    )
    dense_features: List[List[float]] = Field(
        ...,
        description="密集特征列表",
        example=[[0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0, 1.1, 1.2, 1.3, 1.4, 1.5, 1.6]]
    )
    request_id: Optional[str] = Field(None, description="请求ID")

class DistributedInferenceResponse(BaseModel):
    predictions: List[float]
    processing_time_ms: float
    batch_size: int
    request_id: Optional[str] = None
    world_size: int
    model_version: str = "1.0.0"

# 全局变量
global_dist_model = None
global_world_size = 1
global_rank = 0

@app.on_event("startup")
async def startup_event():
    """服务启动时初始化分布式环境和模型"""
    global global_dist_model, global_world_size, global_rank
    
    try:
        # 1. 初始化分布式环境
        global_world_size, global_rank = initialize_distributed_environment()
        
        # 2. 仅rank 0加载模型配置
        if global_rank == 0:
            logging.info("🔧 Rank 0: 加载模型配置...")
            model_config = {
                "embedding_dim": 128,
                "dense_dim": 16,
                "num_user_embeddings": 10000000,
                "num_item_embeddings": 5000000,
                "task_type": "classification"
            }
        else:
            model_config = None
        
        # 3. 广播配置到所有rank
        if global_rank == 0:
            config_tensor = torch.tensor([json.dumps(model_config)], dtype=torch.float32)
            dist.broadcast(config_tensor, src=0)
        else:
            config_tensor = torch.zeros(1, dtype=torch.float32)
            dist.broadcast(config_tensor, src=0)
            model_config = json.loads(config_tensor.item())
        
        # 4. 所有rank加载分布式模型
        logging.info(f"[Rank {global_rank}] 🔧 加载分布式模型...")
        CHECKPOINT_DIR = "checkpoint/final_model"
        
        global_dist_model = load_distributed_model_for_inference(
            checkpoint_dir=CHECKPOINT_DIR,
            model_config=model_config,
            device="cuda"
        )
        
        logging.info(f"[Rank {global_rank}] ✅ 服务启动完成!")
        
    except Exception as e:
        logging.error(f"[Rank {global_rank}] ❌ 服务启动失败: {str(e)}")
        raise

@app.post("/predict", response_model=DistributedInferenceResponse)
async def predict(request: DistributedInferenceRequest):
    """
    分布式预测端点
    仅rank 0处理请求，其他rank等待
    """
    global global_dist_model, global_world_size, global_rank
    
    if global_dist_model is None:
        raise HTTPException(status_code=503, detail="模型未加载，请稍后重试")
    
    if global_rank != 0:
        # 非rank 0等待rank 0的指令
        return {"status": "waiting"}
    
    try:
        start_time = time.time()
        
        # 转换输入为张量
        batch_size = len(request.sparse_features["user_id"])
        inputs = {
            "sparse_features": {
                key: torch.tensor(value, dtype=torch.long).to("cuda")
                for key, value in request.sparse_features.items()
            },
            "dense_features": torch.tensor(request.dense_features, dtype=torch.float32).to("cuda")
        }
        
        # 执行分布式推理
        predictions = global_dist_model.infer(inputs)
        
        processing_time = time.time() - start_time
        
        return DistributedInferenceResponse(
            predictions=predictions.flatten().tolist(),
            processing_time_ms=processing_time * 1000,
            batch_size=batch_size,
            request_id=request.request_id,
            world_size=global_world_size,
            model_version="1.0.0"
        )
    
    except Exception as e:
        logging.error(f"预测失败: {str(e)}")
        raise HTTPException(status_code=500, detail=f"预测失败: {str(e)}")

@app.get("/health")
async def health_check():
    """健康检查端点"""
    global global_dist_model, global_world_size, global_rank
    
    return {
        "status": "healthy" if global_dist_model is not None else "unhealthy",
        "model_loaded": global_dist_model is not None,
        "world_size": global_world_size,
        "rank": global_rank,
        "device": "cuda" if torch.cuda.is_available() else "cpu"
    }

@app.get("/model_info")
async def model_info():
    """模型信息端点"""
    global global_dist_model, global_world_size
    
    if global_dist_model is None or global_rank != 0:
        return {"status": "model_not_loaded"}
    
    return {
        "world_size": global_world_size,
        "embedding_tables": {
            "user_features": global_dist_model.model_config["num_user_embeddings"],
            "item_features": global_dist_model.model_config["num_item_embeddings"]
        },
        "total_parameters": "超大规模（分布式）",
        "device": "cuda"
    }

if __name__ == "__main__":
    import uvicorn
    port = int(os.environ.get("PORT", 8000))
    uvicorn.run(app, host="0.0.0.0", port=port)

6.2 多节点协调机制

python 复制代码

class DistributedRequestCoordinator:
    """
    分布式请求协调器
    管理多节点间的请求分发和结果收集
    """
    
    def __init__(self, world_size: int, rank: int):
        self.world_size = world_size
        self.rank = rank
        self.request_queue = {}
        self.result_cache = {}
        self.request_counter = 0
        self.lock = threading.Lock()
    
    def generate_request_id(self) -> str:
        """生成唯一请求ID"""
        with self.lock:
            self.request_counter += 1
            return f"req_{self.request_counter}_{int(time.time())}"
    
    def distribute_request(self, request_data: Dict[str, Any], request_id: str):
        """
        分发请求到所有rank
        仅rank 0调用
        """
        if self.rank != 0:
            raise RuntimeError("只有rank 0可以分发请求")
        
        # 1. 序列化请求
        serialized_request = json.dumps({
            "request_id": request_id,
            "data": request_data
        })
        
        # 2. 广播到所有rank
        request_tensor = torch.tensor([serialized_request], dtype=torch.float32)
        dist.broadcast(request_tensor, src=0)
        
        # 3. 记录请求
        self.request_queue[request_id] = {
            "status": "distributed",
            "timestamp": time.time()
        }
    
    def receive_request(self) -> Optional[Dict[str, Any]]:
        """
        接收请求
        所有rank调用
        """
        if self.rank == 0:
            return None  # Rank 0不接收，只分发
        
        # 1. 接收广播
        request_tensor = torch.zeros(1, dtype=torch.float32)
        dist.broadcast(request_tensor, src=0)
        
        # 2. 反序列化
        request_data = json.loads(request_tensor.item())
        return request_data
    
    def collect_results(self, request_id: str, local_result: Any):
        """
        收集本地结果
        所有rank调用
        """
        # 1. 转换为张量
        result_tensor = self._serialize_result(local_result)
        
        # 2. 收集到rank 0
        if self.rank == 0:
            all_results = [torch.zeros_like(result_tensor) for _ in range(self.world_size)]
            dist.gather(result_tensor, all_results, dst=0)
            return self._deserialize_results(all_results)
        else:
            dist.gather(result_tensor, None, dst=0)
            return None
    
    def _serialize_result(self, result: Any) -> torch.Tensor:
        """序列化结果为张量"""
        # 简化实现，实际需要更复杂的序列化
        return torch.tensor([1.0])
    
    def _deserialize_results(self, tensors: List[torch.Tensor]) -> Any:
        """反序列化结果"""
        # 简化实现
        return torch.cat(tensors)

7. 性能优化技术

7.1 分布式推理性能对比

优化技术	延迟 (ms)	吞吐量 (样本/秒)	内存/卡 (MB)	通信开销	适用场景
原始分布式	45.2	2,832	15,200	高	基准
混合精度	38.5	3,325	12,800	高	通用优化
通信优化	32.1	3,988	15,200	中	高通信开销场景
流水线并行	28.7	4,460	8,500	低	超深模型
分片优化	25.3	5,060	10,200	中	嵌入表主导模型

7.2 混合精度优化

python 复制代码

from torch.cuda.amp import autocast

class MixedPrecisionDistributedInferenceModel(DistributedInferenceModel):
    """
    混合精度分布式推理模型
    使用FP16/FP32混合精度提升性能
    """
    
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.use_mixed_precision = True
    
    def infer(self, inputs: Dict[str, Any]) -> Optional[torch.Tensor]:
        """
        使用混合精度执行分布式推理
        """
        if not self.is_initialized:
            raise RuntimeError("模型未初始化，请先调用initialize()")
        
        # 1. 广播输入
        broadcasted_inputs = self._broadcast_inputs(inputs)
        
        # 2. 混合精度推理
        with torch.no_grad():
            with autocast(dtype=torch.float16 if self.use_mixed_precision else torch.float32):
                outputs = self.model(broadcasted_inputs)
        
        # 3. 收集结果
        if self.rank == 0:
            return self._gather_results(outputs)
        return None

7.3 通信优化

python 复制代码

from torchrec.distributed.comm import alltoall_pooled

class OptimizedCommunicationModel(DistributedTrainingModel):
    """
    通信优化的分布式模型
    减少All-to-All通信开销
    """
    
    def __init__(self, config: Dict[str, Any]):
        super().__init__(config)
        self._communication_optimized = False
    
    def optimize_communication(self):
        """应用通信优化"""
        logging.info(f"[Rank {dist.get_rank()}] 🔧 应用通信优化...")
        
        # 1. 使用更高效的All-to-All实现
        self._all2all_pooled = alltoall_pooled
        
        # 2. 优化嵌入表布局
        self._optimize_embedding_layout()
        
        # 3. 启用梯度压缩（推理不适用，但保持接口一致）
        self._communication_optimized = True
        logging.info(f"[Rank {dist.get_rank()}] ✅ 通信优化应用完成")
    
    def _optimize_embedding_layout(self):
        """优化嵌入表内存布局"""
        # 实际实现会根据硬件拓扑优化嵌入表分片
        pass
    
    def forward(self, sparse_features, dense_features):
        """
        优化后的前向传播
        """
        # 1. 嵌入查找
        sparse_embeddings = self.embedding_bag_collection(sparse_features)
        
        # 2. 通信优化的All-to-All
        if self._communication_optimized:
            sparse_embeddings = self._all2all_pooled(sparse_embeddings)
        
        # 3. 拼接和密集网络
        concatenated_embeddings = torch.cat(
            [sparse_embeddings[name] for name in sparse_embeddings.keys()],
            dim=1
        )
        
        combined_features = torch.cat([concatenated_embeddings, dense_features], dim=1)
        return self.dense_net(combined_features)

8. 部署与监控

8.1 Kubernetes分布式部署

yaml 复制代码

# distributed-deployment.yaml
apiVersion: apps/v1
kind: StatefulSet
meta
  name: torchrec-distributed
  labels:
    app: torchrec-distributed
spec:
  serviceName: torchrec-distributed
  replicas: 4  # 4个rank
  selector:
    matchLabels:
      app: torchrec-distributed
  template:
    meta
      labels:
        app: torchrec-distributed
      annotations:
        prometheus.io/scrape: "true"
        prometheus.io/port: "8000"
    spec:
      containers:
      - name: inference
        image: your-registry/torchrec-distributed:2.5.0
        ports:
        - containerPort: 8000
          name: http
        - containerPort: 29500
          name: nccl
        resources:
          limits:
            nvidia.com/gpu: 1
            memory: 32Gi
            cpu: 8
          requests:
            nvidia.com/gpu: 1
            memory: 24Gi
            cpu: 6
        env:
        - name: MASTER_ADDR
          value: torchrec-distributed-0.torchrec-distributed  # Headless service
        - name: MASTER_PORT
          value: "29500"
        - name: WORLD_SIZE
          value: "4"
        - name: RANK
          valueFrom:
            fieldRef:
              fieldPath: metadata.name
              apiVersion: v1
        - name: DEVICE
          value: "cuda"
        volumeMounts:
        - name: checkpoint-volume
          mountPath: /app/checkpoint
          readOnly: true
        readinessProbe:
          httpGet:
            path: /health
            port: http
          initialDelaySeconds: 30
          periodSeconds: 10
        livenessProbe:
          httpGet:
            path: /health
            port: http
          initialDelaySeconds: 60
          periodSeconds: 30
      volumes:
      - name: checkpoint-volume
        persistentVolumeClaim:
          claimName: torchrec-checkpoints-pvc
---
apiVersion: v1
kind: Service
meta
  name: torchrec-distributed
  labels:
    app: torchrec-distributed
spec:
  clusterIP: None  # Headless service
  selector:
    app: torchrec-distributed
  ports:
  - port: 8000
    name: http
  - port: 29500
    name: nccl
---
apiVersion: v1
kind: Service
meta
  name: torchrec-distributed-api
spec:
  selector:
    app: torchrec-distributed
    statefulset.kubernetes.io/pod-name: torchrec-distributed-0  # 仅暴露rank 0
  ports:
  - port: 80
    targetPort: 8000
---
apiVersion: networking.k8s.io/v1
kind: Ingress
meta
  name: torchrec-distributed
spec:
  rules:
  - http:
      paths:
      - path: /predict
        pathType: Prefix
        backend:
          service:
            name: torchrec-distributed-api
            port:
              number: 80
      - path: /health
        pathType: Exact
        backend:
          service:
            name: torchrec-distributed-api
            port:
              number: 80

8.2 分布式监控指标

python 复制代码

from prometheus_client import Counter, Histogram, Gauge, Summary

# 分布式特有指标
DISTRIBUTED_REQUESTS = Counter("distributed_requests_total", "Total distributed requests", ["rank"])
DISTRIBUTED_LATENCY = Histogram("distributed_request_latency_seconds", "Distributed request latency", ["rank", "stage"])
DISTRIBUTED_COMMUNICATION = Summary("distributed_communication_bytes", "Communication volume between ranks", ["src_rank", "dst_rank"])
DISTRIBUTED_MEMORY = Gauge("distributed_gpu_memory_mb", "GPU memory usage per rank", ["rank"])
DISTRIBUTED_SYNC_TIME = Histogram("distributed_sync_time_seconds", "Synchronization time between ranks", ["operation"])

class DistributedMetricsCollector:
    """分布式指标收集器"""
    
    def __init__(self, rank: int):
        self.rank = rank
    
    def record_request(self, stage: str, duration: float):
        """记录请求处理时间"""
        DISTRIBUTED_LATENCY.labels(rank=str(self.rank), stage=stage).observe(duration)
        DISTRIBUTED_REQUESTS.labels(rank=str(self.rank)).inc()
    
    def record_communication(self, src_rank: int, dst_rank: int, bytes_sent: int):
        """记录通信量"""
        DISTRIBUTED_COMMUNICATION.labels(
            src_rank=str(src_rank),
            dst_rank=str(dst_rank)
        ).observe(bytes_sent)
    
    def record_memory_usage(self):
        """记录GPU内存使用"""
        if torch.cuda.is_available():
            memory_mb = torch.cuda.memory_allocated() / 1024 / 1024
            DISTRIBUTED_MEMORY.labels(rank=str(self.rank)).set(memory_mb)
    
    def record_sync_time(self, operation: str, duration: float):
        """记录同步操作时间"""
        DISTRIBUTED_SYNC_TIME.labels(operation=operation).observe(duration)

9. 故障排除与调试

9.1 常见分布式问题排查

问题	现象	诊断方法	解决方案
Rank死锁	服务无响应，无错误日志	检查NCCL超时，查看rank状态	增加超时，添加心跳检测
分片不一致	预测结果不一致	比较各rank的模型参数	确保相同checkpoint和配置
通信失败	NCCL错误，连接超时	检查网络连通性，端口开放	验证MASTER_ADDR和防火墙
内存溢出	CUDA out of memory	监控GPU内存使用	减小批次大小，优化分片策略
结果不聚合	只有部分结果返回	检查gather操作	验证world size和rank配置

9.2 分布式调试工具

python 复制代码

def distributed_debug_tool():
    """分布式调试工具"""
    rank = dist.get_rank()
    world_size = dist.get_world_size()
    
    logging.info(f"[DEBUG] [Rank {rank}/{world_size}] 分布式状态检查")
    
    # 1. 检查进程组
    try:
        pg_status = dist.get_backend()
        logging.info(f"[Rank {rank}]   - 进程组状态: {pg_status}")
    except Exception as e:
        logging.error(f"[Rank {rank}]   - 进程组检查失败: {str(e)}")
    
    # 2. 检查设备
    device = torch.cuda.current_device() if torch.cuda.is_available() else "cpu"
    logging.info(f"[Rank {rank}]   - 当前设备: {device}")
    
    # 3. 检查NCCL
    try:
        torch.cuda.nccl.version()
        logging.info(f"[Rank {rank}]   - NCCL可用")
    except Exception as e:
        logging.error(f"[Rank {rank}]   - NCCL检查失败: {str(e)}")
    
    # 4. 检查通信
    test_tensor = torch.ones(1, device=device) * rank
    dist.all_reduce(test_tensor, op=dist.ReduceOp.SUM)
    expected_sum = sum(range(world_size))
    if test_tensor.item() == expected_sum:
        logging.info(f"[Rank {rank}]   - 通信测试通过")
    else:
        logging.error(f"[Rank {rank}]   - 通信测试失败: 预期={expected_sum}, 实际={test_tensor.item()}")
    
    # 5. 检查内存
    if torch.cuda.is_available():
        memory_allocated = torch.cuda.memory_allocated() / 1024 / 1024
        memory_reserved = torch.cuda.memory_reserved() / 1024 / 1024
        logging.info(f"[Rank {rank}]   - GPU内存: 已分配={memory_allocated:.2f}MB, 保留={memory_reserved:.2f}MB")
    
    # 6. 同步所有rank
    dist.barrier()
    logging.info(f"[Rank {rank}]   - 所有rank同步完成")

10. 最佳实践与总结

10.1 分布式推理决策矩阵

问题	推荐方案	理由
模型大小	<80GB: 单机, >80GB: 分布式	GPU内存限制
延迟要求	<10ms: 单机, >10ms: 分布式	通信开销影响
吞吐需求	<10K样本/秒: 单机, >10K: 分布式	并行处理能力
部署复杂度	简单部署: 单机, 复杂场景: 分布式	运维成本考量
模型一致性	严格一致: 分布式, 近似一致: 单机	业务需求

10.2 生产环境检查清单

10.3 性能优化路线图

基础分布式推理
混合精度优化
通信优化
分片策略优化
流水线并行
自动分片策略

11. 附录：完整代码示例

11.1 启动脚本

bash 复制代码

#!/bin/bash
# start_distributed_inference.sh

# 配置参数
WORLD_SIZE=4
MASTER_ADDR=localhost
MASTER_PORT=29500
CHECKPOINT_DIR="checkpoint/final_model"
MODEL_CONFIG="config/model_config.json"

echo "🚀 启动TorchRec分布式推理服务"
echo "   - World size: $WORLD_SIZE"
echo "   - Master: $MASTER_ADDR:$MASTER_PORT"
echo "   - Checkpoint: $CHECKPOINT_DIR"

# 启动多进程
for RANK in $(seq 0 $((WORLD_SIZE-1))); do
    export RANK=$RANK
    export WORLD_SIZE=$WORLD_SIZE
    export MASTER_ADDR=$MASTER_ADDR
    export MASTER_PORT=$MASTER_PORT
    
    if [ $RANK -eq 0 ]; then
        # Rank 0作为API服务器
        python distributed_inference_server.py --port 8000 &
        echo "✅ Rank 0 (API服务) 启动，PID: $!"
    else
        # 其他rank作为worker
        python distributed_worker.py &
        echo "✅ Rank $RANK (Worker) 启动，PID: $!"
    fi
    
    # 等待前一个进程初始化
    sleep 2
done

echo "🎉 所有进程启动完成，按Ctrl+C停止服务"

# 等待所有进程
wait

11.2 性能测试脚本

python 复制代码

# distributed_benchmark.py
import time
import numpy as np
from concurrent.futures import ThreadPoolExecutor
import requests

def benchmark_distributed_inference(
    api_url: str,
    num_requests: int = 1000,
    concurrency: int = 10,
    batch_size: int = 64
):
    """分布式推理性能基准测试"""
    
    print(f"🔍 开始分布式推理基准测试")
    print(f"   - API URL: {api_url}")
    print(f"   - 总请求数: {num_requests}")
    print(f"   - 并发数: {concurrency}")
    print(f"   - 批次大小: {batch_size}")
    
    # 生成测试数据
    def generate_request():
        return {
            "sparse_features": {
                "user_id": np.random.randint(0, 10000000, batch_size).tolist(),
                "user_age": np.random.randint(0, 100, batch_size).tolist(),
                "user_gender": np.random.randint(0, 2, batch_size).tolist(),
                "item_id": np.random.randint(0, 5000000, batch_size).tolist(),
                "item_category": np.random.randint(0, 1000, batch_size).tolist(),
                "item_price": np.random.randint(0, 10000, batch_size).tolist()
            },
            "dense_features": np.random.randn(batch_size, 16).tolist(),
            "request_id": f"test_{int(time.time())}"
        }
    
    # 发送请求函数
    def send_request():
        start_time = time.time()
        try:
            response = requests.post(f"{api_url}/predict", json=generate_request())
            latency = time.time() - start_time
            success = response.status_code == 200
            return latency, success
        except Exception as e:
            latency = time.time() - start_time
            print(f"请求失败: {str(e)}")
            return latency, False
    
    # 并发测试
    latencies = []
    success_count = 0
    start_test_time = time.time()
    
    with ThreadPoolExecutor(max_workers=concurrency) as executor:
        futures = [executor.submit(send_request) for _ in range(num_requests)]
        
        for i, future in enumerate(futures):
            latency, success = future.result()
            latencies.append(latency)
            if success:
                success_count += 1
            
            if (i + 1) % 100 == 0:
                print(f"📊 已完成: {i+1}/{num_requests} 请求")
    
    total_time = time.time() - start_test_time
    
    # 分析结果
    latencies_array = np.array(latencies)
    p50 = np.percentile(latencies_array, 50)
    p90 = np.percentile(latencies_array, 90)
    p99 = np.percentile(latencies_array, 99)
    
    print(f"\n📈 性能测试结果:")
    print(f"   - 总时间: {total_time:.2f} 秒")
    print(f"   - 成功率: {success_count/num_requests*100:.1f}%")
    print(f"   - 平均延迟: {np.mean(latencies_array)*1000:.2f} ms")
    print(f"   - P50延迟: {p50*1000:.2f} ms")
    print(f"   - P90延迟: {p90*1000:.2f} ms")
    print(f"   - P99延迟: {p99*1000:.2f} ms")
    print(f"   - 吞吐量: {num_requests/total_time:.1f} 请求/秒")
    print(f"   - 总样本数: {num_requests * batch_size}")
    print(f"   - 样本吞吐量: {num_requests * batch_size / total_time:.1f} 样本/秒")

if __name__ == "__main__":
    benchmark_distributed_inference(
        api_url="http://localhost:8000",
        num_requests=1000,
        concurrency=20,
        batch_size=128
    )