【推荐系统】深度学习训练框架（十九）：TorchRec之DistributedModelParallel

- [1. 为什么需要 DMP？](#1. 为什么需要 DMP？)
- - [1.1 推荐系统的独特挑战](#1.1 推荐系统的独特挑战)
  - [1.2 传统分布式训练的局限性](#1.2 传统分布式训练的局限性)
- [2. DMP 架构设计](#2. DMP 架构设计)
- - [2.1 整体架构图](#2.1 整体架构图)
  - [2.2 核心组件](#2.2 核心组件)
  - - [2.2.1 ShardingPlanner](#2.2.1 ShardingPlanner)
    - [2.2.2 ModuleSharder](#2.2.2 ModuleSharder)
    - [2.2.3 ShardedModule](#2.2.3 ShardedModule)
- [3. DMP 的核心功能](#3. DMP 的核心功能)
- - [3.1 智能分片策略](#3.1 智能分片策略)
  - [3.2 自动通信优化](#3.2 自动通信优化)
  - [3.3 混合精度支持](#3.3 混合精度支持)
- [4. 完整代码示例](#4. 完整代码示例)
- - [4.1 基础 DMP 设置](#4.1 基础 DMP 设置)
  - [4.2 高级配置：自定义分片策略](#4.2 高级配置：自定义分片策略)
  - [4.3 异构设备支持（CPU + GPU）](#4.3 异构设备支持（CPU + GPU）)
- [5. 性能优化技巧](#5. 性能优化技巧)
- - [5.1 通信-计算重叠](#5.1 通信-计算重叠)
  - [5.2 梯度压缩](#5.2 梯度压缩)
  - [5.3 缓存优化](#5.3 缓存优化)
- [6. 调试和监控](#6. 调试和监控)
- - [6.1 训练监控](#6.1 训练监控)
  - [6.2 分布式调试技巧](#6.2 分布式调试技巧)
- [7. 生产环境最佳实践](#7. 生产环境最佳实践)
- - [7.1 容错和恢复](#7.1 容错和恢复)
  - [7.2 动态扩缩容](#7.2 动态扩缩容)
- [8. 关键注意事项](#8. 关键注意事项)
- - [8.1 常见陷阱](#8.1 常见陷阱)
  - [8.2 性能调优清单](#8.2 性能调优清单)
- [9. 未来发展方向](#9. 未来发展方向)
- - [9.1 技术演进](#9.1 技术演进)
  - [9.2 生态集成](#9.2 生态集成)

DistributedModelParallel (DMP) 是 TorchRec 中用于大规模推荐系统分布式训练的核心组件。它专门设计用于解决推荐系统中 超大规模嵌入表 的分布式训练挑战，是工业级推荐系统训练的关键基础设施。

1. 为什么需要 DMP？

1.1 推荐系统的独特挑战

推荐系统与传统CV/NLP模型相比有显著差异：

特性	传统CV/NLP模型	推荐系统
参数分布	均匀分布在各层	90%+参数在嵌入表
计算模式	计算密集型	I/O和通信密集型
特征维度	相对固定	动态变化，超高维
稀疏性	相对稠密	极度稀疏（<0.1%激活）
规模	百万-十亿参数	十亿-万亿参数

1.2 传统分布式训练的局限性

python 复制代码

# 传统PyTorch DDP的问题
model = nn.Sequential(
    nn.Embedding(1000000000, 64),  # 10亿×64 = 64GB
    nn.Linear(64, 1)
)

# DDP会将整个模型复制到每个GPU
# 4 GPU × 64GB = 256GB显存需求 ❌ 不可行

DMP的核心价值 ：将超大嵌入表分片到多个设备，而非复制，从而突破单设备内存限制。

2. DMP 架构设计

2.1 整体架构图

复制代码

┌─────────────────────────────────────────────────────────────┐
│                DMP Architecture Overview                   │
├─────────────────────────────────────────────────────────────┤
│  Global Model:                                              │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐│
│  │  EmbeddingBag   │  │  EmbeddingBag   │  │  EmbeddingBag   ││
│  │  Collection     │  │  Collection     │  │  Collection     ││
│  │  (EBC)          │  │  (EBC)          │  │  (EBC)          ││
│  └────────┬────────┘  └────────┬────────┘  └────────┬────────┘│
│           │                   │                   │        │
│  ┌────────▼───────────────────▼───────────────────▼────────┐│
│  │                    Dense Model (MLP)                   ││
│  └─────────────────────────────────────────────────────────┘│
│                                                            │
├─────────────────────────────────────────────────────────────┤
│  Distributed Sharding:                                     │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐│
│  │   Worker 0      │  │   Worker 1      │  │   Worker 2      ││
│  │  ┌───────────┐  │  │  ┌───────────┐  │  │  ┌───────────┐  ││
│  │  │ Shard 1   │  │  │  │ Shard 2   │  │  │  │ Shard 3   │  ││
│  │  │ (User IDs)│  │  │  │ (Item IDs)│  │  │  │ (Category)│  ││
│  │  └───────────┘  │  │  └───────────┘  │  │  └───────────┘  ││
│  │  ┌───────────┐  │  │  ┌───────────┐  │  │  ┌───────────┐  ││
│  │  │ Partial   │  │  │  │ Partial   │  │  │  │ Partial   │  ││
│  │  │ Dense     │  │  │  │ Dense     │  │  │  │ Dense     │  ││
│  │  │ Model     │  │  │  │ Model     │  │  │  │ Model     │  ││
│  │  └───────────┘  │  │  └───────────┘  │  │  └───────────┘  ││
│  └─────────────────┘  └─────────────────┘  └─────────────────┘│
│                                                            │
├─────────────────────────────────────────────────────────────┤
│  Communication:                                            │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  All-to-All Communication                           │   │
│  │  - 交换跨设备的嵌入查找结果                         │   │
│  │  - 同步dense模型梯度                                │   │
│  └─────────────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────────────┘

2.2 核心组件

2.2.1 ShardingPlanner

python 复制代码

from torchrec.distributed.planner import EmbeddingShardingPlanner

# 自动规划分片策略
planner = EmbeddingShardingPlanner(
    topology=Topology(world_size=4, compute_device="cuda"),
    batch_size=1024,
    constraints={
        "user_table": {"compute_kernel": "fused", "sharding_type": "table_wise"},
        "item_table": {"compute_kernel": "fused_uvm_caching"}
    }
)

# 生成分片计划
sharding_plan = planner.plan(model, input_schema)

2.2.2 ModuleSharder

python 复制代码

from torchrec.distributed.types import ModuleSharder

class CustomEmbeddingSharder(ModuleSharder[nn.Module]):
    def shard(self, module: nn.Module, ...) -> ShardedModule:
        """将模块分片到多个设备"""
        # 实现分片逻辑
        pass
    
    def shardable_parameters(self, module: nn.Module) -> Dict[str, nn.Parameter]:
        """返回可分片的参数"""
        return {name: param for name, param in module.named_parameters()}

2.2.3 ShardedModule

python 复制代码

class ShardedEmbeddingBagCollection(nn.Module):
    def __init__(self, module: EmbeddingBagCollection, ...):
        super().__init__()
        self._sharded_tables = self._create_sharded_tables(module)
    
    def forward(self, kjt: KeyedJaggedTensor) -> KeyedTensor:
        """分片的前向传播"""
        # 1. 将KJT分发到对应设备
        # 2. 本地嵌入查找
        # 3. 跨设备通信聚合结果
        return self._collect_results()

3. DMP 的核心功能

3.1 智能分片策略

DMP支持多种分片策略，根据表大小和访问模式自动选择：

分片策略	适用场景	优势	劣势
Table-wise	大表（>10亿参数）	负载均衡好	通信开销大
Row-wise	中等表（1亿-10亿）	内存使用均衡	需要all-to-all通信
Column-wise	小表+高维	计算效率高	负载不均衡
Data-parallel	稠密层	实现简单	不适合大嵌入表

python 复制代码

# 分片策略配置示例
sharding_types = {
    "user_embedding_table": "table_wise",    # 超大用户表
    "item_embedding_table": "row_wise",      # 大物品表
    "category_embedding_table": "data_parallel",  # 小类别表
    "dense_mlp": "data_parallel"            # 稠密层
}

3.2 自动通信优化

DMP自动优化通信模式：

python 复制代码

class CommunicationOptimizer:
    def optimize_communication(self, sharding_plan):
        """优化通信模式"""
        # 1. 分析数据依赖
        all_to_all_needed = self._analyze_cross_device_dependencies()
        
        # 2. 选择最优通信原语
        if all_to_all_needed:
            return AllToAllCommunication()
        else:
            return ReduceScatterCommunication()
        
        # 3. 重叠计算和通信
        self._enable_overlap_computation_communication()

3.3 混合精度支持

python 复制代码

# 混合精度配置
dmp_model = DistributedModelParallel(
    module=model,
    device=torch.device("cuda"),
    pg=process_group,
    sharders=get_default_sharders(),
    device_type="cuda",
    enable_float16=True,  # 启用FP16
    enable_bf16=False,   # 或启用BF16
    qcomm_codecs_registry={
        CommOp.POOLED_EMBEDDINGS_ALL_TO_ALL: Float16QCommCodec(),
        CommOp.POOLED_EMBEDDINGS_REDUCE_SCATTER: Float16QCommCodec(),
    }
)

4. 完整代码示例

4.1 基础 DMP 设置

python 复制代码

import torch
import torch.distributed as dist
from torchrec import EmbeddingBagCollection, EmbeddingConfig
from torchrec.distributed.model_parallel import (
    DistributedModelParallel,
    get_default_sharders,
)
from torchrec.distributed.types import (
    ModuleSharder,
    ShardingEnv,
    ShardingType,
)
from torchrec.distributed.planner import EmbeddingShardingPlanner, Topology
from torchrec.distributed.comm import get_local_size

class DLRMModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.ebc = EmbeddingBagCollection(
            tables=[
                EmbeddingConfig(
                    name="user_table", 
                    embedding_dim=64,
                    num_embeddings=1000000,
                    feature_names=["user_id"]
                ),
                EmbeddingConfig(
                    name="item_table",
                    embedding_dim=128, 
                    num_embeddings=10000000,
                    feature_names=["item_id"]
                )
            ]
        )
        self.dense_mlp = nn.Sequential(
            nn.Linear(192, 256),
            nn.ReLU(),
            nn.Linear(256, 1)
        )
    
    def forward(self, kjt, dense_features):
        sparse_emb = self.ebc(kjt)
        combined = torch.cat([sparse_emb.values(), dense_features], dim=1)
        return self.dense_mlp(combined)

def setup_dmp(rank: int, world_size: int):
    """设置DMP环境"""
    # 1. 初始化进程组
    dist.init_process_group(
        backend="nccl",
        init_method="env://",
        rank=rank,
        world_size=world_size
    )
    torch.cuda.set_device(rank)
    
    # 2. 创建模型
    model = DLRMModel()
    
    # 3. 创建分片环境
    sharding_env = ShardingEnv.from_process_group(
        dist.group.WORLD,
        get_local_size(),
        rank
    )
    
    # 4. 创建DMP模型
    dmp_model = DistributedModelParallel(
        module=model,
        env=sharding_env,
        sharders=get_default_sharders(),
        device=torch.device("cuda", rank)
    )
    
    # 5. 优化器
    optimizer = torch.optim.Adam(dmp_model.parameters(), lr=0.001)
    
    return dmp_model, optimizer

def train_step(dmp_model, optimizer, batch):
    """单步训练"""
    kjt, dense_features, labels = batch
    
    # 前向传播
    logits = dmp_model(kjt, dense_features)
    
    # 计算损失
    loss = nn.BCEWithLogitsLoss()(logits.squeeze(), labels.float())
    
    # 反向传播
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    return loss.item()

4.2 高级配置：自定义分片策略

python 复制代码

from torchrec.distributed.planner import ParameterConstraints
from torchrec.distributed.types import ShardingType, ComputeKernel

def setup_advanced_dmp(rank: int, world_size: int):
    """高级DMP配置"""
    dist.init_process_group(
        backend="nccl",
        init_method="env://",
        rank=rank,
        world_size=world_size
    )
    torch.cuda.set_device(rank)
    
    # 1. 创建模型
    model = DLRMModel()
    
    # 2. 定义分片约束
    constraints = {
        "user_table": ParameterConstraints(
            sharding_types=[ShardingType.TABLE_WISE.value],
            compute_kernels=[ComputeKernel.FUSED.value]
        ),
        "item_table": ParameterConstraints(
            sharding_types=[ShardingType.ROW_WISE.value],
            compute_kernels=[ComputeKernel.FUSED_UVM_CACHING.value],
            cache_params={"load_factor": 0.2}  # 20%缓存
        )
    }
    
    # 3. 创建分片计划器
    planner = EmbeddingShardingPlanner(
        topology=Topology(
            world_size=world_size,
            compute_device="cuda",
            local_world_size=get_local_size()
        ),
        batch_size=1024,
        constraints=constraints
    )
    
    # 4. 生成分片计划
    sharding_plan = planner.collective_plan(
        model,
        get_default_sharders(),
        dist.group.WORLD
    )
    
    # 5. 创建DMP模型
    dmp_model = DistributedModelParallel(
        module=model,
        plan=sharding_plan,
        env=ShardingEnv.from_process_group(
            dist.group.WORLD,
            get_local_size(),
            rank
        ),
        device=torch.device("cuda", rank),
        enable_fused_parameters=True
    )
    
    return dmp_model

4.3 异构设备支持（CPU + GPU）

python 复制代码

def setup_heterogeneous_dmp(rank: int, world_size: int):
    """异构设备DMP配置"""
    dist.init_process_group(
        backend="nccl",
        init_method="env://",
        rank=rank,
        world_size=world_size
    )
    
    # 1. 检测设备类型
    if torch.cuda.is_available():
        device = torch.device("cuda", rank % torch.cuda.device_count())
        compute_device = "cuda"
    else:
        device = torch.device("cpu")
        compute_device = "cpu"
    
    # 2. 创建模型
    model = DLRMModel()
    
    # 3. 异构分片策略
    constraints = {
        "user_table": ParameterConstraints(
            sharding_types=[ShardingType.TABLE_WISE.value],
            compute_kernels=[
                ComputeKernel.FUSED.value if compute_device == "cuda" else 
                ComputeKernel.BATCHED_FUSED.value
            ]
        ),
        "item_table": ParameterConstraints(
            sharding_types=[ShardingType.TABLE_ROW_WISE.value],
            compute_kernels=[
                ComputeKernel.FUSED_UVM.value  # CPU+GPU混合
            ]
        )
    }
    
    # 4. 创建DMP
    dmp_model = DistributedModelParallel(
        module=model,
        device=device,
        sharders=get_default_sharders(),
        env=ShardingEnv.from_process_group(
            dist.group.WORLD,
            get_local_size(),
            rank
        ),
        constraints=constraints,
        enable_uvm=True,  # 启用UVM
        uvm_host_mapped=True  # 主机内存映射
    )
    
    return dmp_model

5. 性能优化技巧

5.1 通信-计算重叠

python 复制代码

class OverlappedDMP:
    def __init__(self, dmp_model):
        self.dmp_model = dmp_model
        self.stream = torch.cuda.Stream()  # 专用CUDA流
    
    def forward_backward(self, kjt, dense_features, labels):
        """重叠通信和计算"""
        with torch.cuda.stream(self.stream):
            # 异步嵌入查找
            sparse_emb = self.dmp_model.ebc(kjt)
        
        # 同步等待嵌入结果
        torch.cuda.current_stream().wait_stream(self.stream)
        
        # 稠密层计算（与通信重叠）
        logits = self.dmp_model.dense_mlp(
            torch.cat([sparse_emb.values(), dense_features], dim=1)
        )
        
        # 损失计算和反向传播
        loss = nn.BCEWithLogitsLoss()(logits.squeeze(), labels.float())
        loss.backward()
        
        return loss

5.2 梯度压缩

python 复制代码

class GradientCompressedDMP:
    def __init__(self, dmp_model):
        self.dmp_model = dmp_model
        
        # 注册梯度钩子
        for name, param in dmp_model.named_parameters():
            if "ebc" in name:  # 只压缩嵌入表梯度
                param.register_hook(self._compress_gradient)
    
    def _compress_gradient(self, grad):
        """梯度压缩"""
        if grad is None:
            return None
        
        # 1. Top-K 压缩
        k = int(grad.numel() * 0.1)  # 保留10%的重要梯度
        top_k_values, top_k_indices = torch.topk(grad.abs().view(-1), k)
        mask = torch.zeros_like(grad, dtype=torch.bool)
        mask.view(-1)[top_k_indices] = True
        
        # 2. 量化
        compressed_grad = torch.zeros_like(grad)
        compressed_grad[mask] = grad[mask]
        
        return compressed_grad

5.3 缓存优化

python 复制代码

class CachedDMP:
    def __init__(self, dmp_model, cache_ratio=0.2):
        self.dmp_model = dmp_model
        self.cache_ratio = cache_ratio
        
        # 为每个嵌入表设置缓存
        for table in dmp_model.ebc.embedding_bag_configs():
            if table.name == "item_table":
                # 物品表使用UVM缓存
                self.dmp_model.apply(
                    lambda m: setattr(m, "_cache_ratio", cache_ratio)
                    if hasattr(m, "_cache_ratio") else None
                )
    
    def profile_and_optimize(self, dataloader):
        """性能分析和优化"""
        access_counts = {}
        
        # 1. 分析访问模式
        for batch in dataloader:
            kjt = batch[0]
            for key in kjt.keys():
                if key not in access_counts:
                    access_counts[key] = 0
                access_counts[key] += len(kjt[key].values())
        
        # 2. 动态调整缓存
        hot_tables = [k for k, v in access_counts.items() if v > 10000]
        for table in hot_tables:
            self._increase_cache_ratio(table, 0.5)  # 热点表增加缓存
    
    def _increase_cache_ratio(self, table_name, ratio):
        """增加缓存比例"""
        print(f"Increasing cache ratio for {table_name} to {ratio}")
        # 实际实现会修改分片配置

6. 调试和监控

6.1 训练监控

python 复制代码

class DMPMonitor:
    def __init__(self, dmp_model):
        self.dmp_model = dmp_model
        self.stats = {
            'forward_time': [],
            'backward_time': [],
            'communication_time': [],
            'memory_usage': [],
            'cache_hit_rate': {}
        }
    
    def profile_step(self, step_func, *args, **kwargs):
        """性能分析单步训练"""
        torch.cuda.synchronize()
        start_time = time.time()
        
        # 前向传播
        forward_start = time.time()
        output = step_func(*args, **kwargs)
        torch.cuda.synchronize()
        forward_time = time.time() - forward_start
        
        # 反向传播
        backward_start = time.time()
        if hasattr(output, 'backward'):
            output.backward()
        torch.cuda.synchronize()
        backward_time = time.time() - backward_start
        
        # 通信时间（估计）
        comm_time = self._estimate_comm_time()
        
        # 内存使用
        memory = torch.cuda.memory_allocated() / 1024**3  # GB
        
        # 更新统计
        self.stats['forward_time'].append(forward_time)
        self.stats['backward_time'].append(backward_time)
        self.stats['communication_time'].append(comm_time)
        self.stats['memory_usage'].append(memory)
        
        total_time = time.time() - start_time
        return output, {
            'total_time': total_time,
            'forward_time': forward_time,
            'backward_time': backward_time,
            'comm_time': comm_time,
            'memory_gb': memory
        }
    
    def _estimate_comm_time(self):
        """估计通信时间"""
        # 基于模型大小和网络带宽的简单估计
        total_params = sum(p.numel() for p in self.dmp_model.parameters())
        bandwidth_gb_per_sec = 10  # 10GB/s 网络带宽
        
        comm_bytes = total_params * 4 * 2  # FP32, 发送+接收
        return comm_bytes / (bandwidth_gb_per_sec * 1024**3)
    
    def generate_report(self):
        """生成性能报告"""
        report = {
            'avg_forward_time': np.mean(self.stats['forward_time']),
            'avg_backward_time': np.mean(self.stats['backward_time']),
            'avg_comm_time': np.mean(self.stats['communication_time']),
            'max_memory_gb': max(self.stats['memory_usage']),
            'throughput': 1024 / np.mean(self.stats['forward_time'] + 
                                        self.stats['backward_time'] + 
                                        self.stats['communication_time'])
        }
        return report

6.2 分布式调试技巧

python 复制代码

def debug_dmp(dmp_model, rank):
    """DMP调试工具"""
    if rank == 0:  # 只在rank 0打印
        print("=== DMP Model Structure ===")
        
        # 1. 打印模型结构
        print("Model modules:")
        for name, module in dmp_model.named_modules():
            print(f"  {name}: {type(module).__name__}")
        
        # 2. 打印分片信息
        print("\nSharding Information:")
        for name, param in dmp_model.named_parameters():
            if hasattr(param, '_sharding_info'):
                print(f"  {name}: {param._sharding_info}")
        
        # 3. 检查梯度同步
        print("\nGradient Synchronization Check:")
        for name, param in dmp_model.named_parameters():
            if param.grad is not None:
                grad_norm = param.grad.norm().item()
                print(f"  {name} gradient norm: {grad_norm:.4f}")
        
        # 4. 内存分析
        print("\nMemory Analysis:")
        total_mem = 0
        for name, param in dmp_model.named_parameters():
            param_mem = param.numel() * param.element_size() / 1024**3
            total_mem += param_mem
            if param_mem > 0.1:  # 大于100MB
                print(f"  {name}: {param_mem:.2f} GB")
        print(f"Total model memory: {total_mem:.2f} GB")

7. 生产环境最佳实践

7.1 容错和恢复

python 复制代码

class FaultTolerantDMP:
    def __init__(self, dmp_model, checkpoint_dir="./checkpoints"):
        self.dmp_model = dmp_model
        self.checkpoint_dir = checkpoint_dir
        self.rank = dist.get_rank()
        
        os.makedirs(checkpoint_dir, exist_ok=True)
    
    def save_checkpoint(self, epoch, step, optimizer):
        """保存检查点"""
        # 1. 保存模型状态
        model_state = self.dmp_model.state_dict()
        
        # 2. 保存优化器状态
        optimizer_state = optimizer.state_dict()
        
        # 3. 保存分片信息
        sharding_info = self._get_sharding_info()
        
        checkpoint = {
            'epoch': epoch,
            'step': step,
            'model_state_dict': model_state,
            'optimizer_state_dict': optimizer_state,
            'sharding_info': sharding_info,
            'rng_state': torch.get_rng_state(),
            'cuda_rng_state': torch.cuda.get_rng_state() if torch.cuda.is_available() else None
        }
        
        # 4. 每个rank单独保存
        checkpoint_path = os.path.join(
            self.checkpoint_dir, 
            f"checkpoint_rank_{self.rank}_epoch_{epoch}.pt"
        )
        torch.save(checkpoint, checkpoint_path)
        
        # 5. rank 0 保存全局元数据
        if self.rank == 0:
            metadata = {
                'total_ranks': dist.get_world_size(),
                'epoch': epoch,
                'step': step,
                'timestamp': time.time()
            }
            torch.save(metadata, os.path.join(self.checkpoint_dir, "metadata.pt"))
    
    def load_checkpoint(self, checkpoint_path, optimizer):
        """加载检查点"""
        if not os.path.exists(checkpoint_path):
            print("Checkpoint not found, starting from scratch")
            return 0, 0
        
        checkpoint = torch.load(checkpoint_path, map_location=f"cuda:{self.rank}")
        
        # 1. 加载模型状态
        self.dmp_model.load_state_dict(checkpoint['model_state_dict'])
        
        # 2. 加载优化器状态
        optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
        
        # 3. 恢复随机状态
        torch.set_rng_state(checkpoint['rng_state'])
        if checkpoint.get('cuda_rng_state') is not None:
            torch.cuda.set_rng_state(checkpoint['cuda_rng_state'])
        
        return checkpoint['epoch'], checkpoint['step']

7.2 动态扩缩容

python 复制代码

class ElasticDMP:
    def __init__(self, base_model, initial_world_size):
        self.base_model = base_model
        self.current_world_size = initial_world_size
        self.dmp_model = None
        self._initialize_dmp()
    
    def _initialize_dmp(self):
        """初始化DMP"""
        self.dmp_model = DistributedModelParallel(
            module=self.base_model,
            device=torch.device("cuda"),
            env=ShardingEnv.from_local(
                world_size=self.current_world_size,
                rank=dist.get_rank(),
                device=torch.device("cuda")
            ),
            sharders=get_default_sharders()
        )
    
    def scale_up(self, new_world_size):
        """扩容"""
        print(f"Scaling up from {self.current_world_size} to {new_world_size} workers")
        
        # 1. 保存当前状态
        current_state = self.dmp_model.state_dict()
        
        # 2. 重新初始化DMP
        self.current_world_size = new_world_size
        self._initialize_dmp()
        
        # 3. 重新分片和加载状态
        self._redistribute_state(current_state)
        
        # 4. 同步所有worker
        dist.barrier()
    
    def _redistribute_state(self, old_state):
        """重新分布模型状态"""
        # 这是一个简化的实现，实际需要复杂的重分片逻辑
        new_state = {}
        
        for key, value in old_state.items():
            if "embedding" in key:
                # 嵌入表需要重新分片
                new_state[key] = self._res hard_embedding(value)
            else:
                # 稠密层可以直接复制
                new_state[key] = value
        
        self.dmp_model.load_state_dict(new_state)

8. 关键注意事项

8.1 常见陷阱

内存泄漏

python 复制代码

# 错误：未释放中间变量
def forward(self, kjt):
    sparse_emb = self.ebc(kjt)
    result = self.dense_mlp(sparse_emb.values())
    return result  # sparse_emb未被释放

# 正确：及时释放
def forward(self, kjt):
    sparse_emb = self.ebc(kjt)
    values = sparse_emb.values()
    del sparse_emb  # 显式删除
    return self.dense_mlp(values)

梯度同步问题

python 复制代码

# 错误：手动修改梯度破坏同步
for param in model.parameters():
    if "ebc" in param.name:
        param.grad = param.grad * 0.1  # 破坏DMP的梯度同步

# 正确：使用钩子
for name, param in model.named_parameters():
    if "ebc" in name:
        param.register_hook(lambda grad: grad * 0.1)

设备不一致

python 复制代码

# 错误：数据和模型在不同设备
kjt = kjt.to("cpu")  # 而DMP模型在GPU
output = dmp_model(kjt)  # 会崩溃

# 正确：确保设备一致
kjt = kjt.to(dmp_model.device)

8.2 性能调优清单

✅ 分片策略优化

分析表大小和访问频率
为大表选择 table-wise 分片
为中等表选择 row-wise 分片
为小表使用 data-parallel

✅ 通信优化

启用通信-计算重叠
使用梯度压缩（Top-K + 量化）
优化 all-to-all 通信模式
设置合适的通信超时

✅ 内存优化

使用 UVM 减少 CUDA 内存压力
为热点表配置缓存
启用混合精度训练
定期清理未使用的缓存

✅ 计算优化

使用 fused kernels 加速嵌入查找
优化 CUDA graph 捕获
启用 async I/O
调整 batch size 和 micro-batch size

9. 未来发展方向

9.1 技术演进

自动分片优化
- 基于学习的分片策略选择
- 实时负载均衡调整
- 动态重新分片
更高效的通信
- 层次化 all-to-all
- 通信压缩算法改进
- RDMA 硬件加速
硬件感知优化
- GPU-NVLink 拓扑感知
- CPU NUMA 感知
- 新型硬件（TPU, NPU）支持

9.2 生态集成

与 PyTorch 生态深度集成
- TorchServe 模型服务
- PyTorch Lightning 训练框架
- Hugging Face Hub 模型共享
多框架支持
- TensorFlow 集成
- JAX 后端支持
- ONNX 导出

总结：DistributedModelParallel (DMP) 是 TorchRec 中处理大规模推荐系统训练的核心组件。它通过智能分片策略 、通信优化 和内存管理，解决了传统分布式训练在超大嵌入表场景下的关键挑战。

关键要点：

✅ DMP 专为推荐系统的嵌入表密集型架构设计
✅ 支持多种分片策略（table-wise, row-wise, column-wise）
✅ 提供自动通信优化 和梯度同步
✅ 支持异构设备 （CPU+GPU）和UVM缓存
✅ 包含完善的监控、调试和容错机制

在实际项目中，建议从简单的 DMP 配置开始，逐步根据性能瓶颈优化分片策略和通信模式。记住，分布式训练的性能往往取决于最慢的通信环节，因此性能分析和调优至关重要。

【推荐系统】深度学习训练框架（十九）：TorchRec之DistributedModelParallel

目录

1. 为什么需要 DMP？

1.1 推荐系统的独特挑战

1.2 传统分布式训练的局限性

2. DMP 架构设计

2.1 整体架构图

2.2 核心组件

2.2.1 ShardingPlanner

2.2.2 ModuleSharder

2.2.3 ShardedModule

3. DMP 的核心功能

3.1 智能分片策略

3.2 自动通信优化

3.3 混合精度支持

4. 完整代码示例

4.1 基础 DMP 设置

4.2 高级配置：自定义分片策略

4.3 异构设备支持（CPU + GPU）

5. 性能优化技巧

5.1 通信-计算重叠

5.2 梯度压缩

5.3 缓存优化

6. 调试和监控

6.1 训练监控

6.2 分布式调试技巧

7. 生产环境最佳实践

7.1 容错和恢复

7.2 动态扩缩容

8. 关键注意事项

8.1 常见陷阱

8.2 性能调优清单

9. 未来发展方向

9.1 技术演进

9.2 生态集成