【第六章：项目实战之推荐/广告系统】3.精排算法-(2)精排算法模型精讲: DNN、deepFM、ESMM、PLE、MMOE算法精讲与实现- PLE 模型

第六章：项目实战之推荐/广告系统

第三部分：精排算法

第二节：精排算法模型精讲: DNN、deepFM、ESMM、PLE、MMOE算法精讲与实现

5.PLE（Progressive Layered Extraction）模型------ 最稳定、工业级多任务学习模型

5.1 PLE 想解决什么问题？

MMOE 虽然比 ESMM 好很多，但仍有两个工程上绕不开的问题：

MMOE 问题	影响
Gate 仍可能选错专家 → 任务污染仍在	CTR 梯度把 CVR 专家拉偏，或反之
共享比例不可控	共享多少、独立多少，全由 Gate 决定，模型不透明

在推荐系统的 多目标场景（Mutil-Task，例如 CTR / CVR / WatchTime / Like / Follow / Comment） 中，这种不稳定会被无限放大。

工业界需要一个"共享可控、避免污染、可扩展" 的结构 → PLE 应运而生

所以一句话总结：

模型	核心共享策略
Hard Sharing（如 ESMM）	强共享，容易任务冲突
MMOE	软共享，但共享比例不可控
PLE	分层共享 + 专家分组 + 强约束共享路径（最稳定）

5.2 PLE 结构核心思想：共享归共享，私有归私有

PLE 的关键策略：

组件	作用
Shared Experts（共享专家）	给所有任务共享的特征能力（如基础兴趣、通用语义）
Task-specific Experts（任务私有专家）	各任务专属，不被其他任务污染
Gates 多层选择	每一层都"逐步筛选"共享信息，越深越任务化

这一点像现实中的人类合作：

"有些能力是共同培养的（通识课）"

"有些能力必须专门训练（各自专业课）"

"并且共享不能一刀切，而要逐层递进"

5.3 PLE 模型结构（最容易理解的 ASCII 图）

以 2 任务（CTR / CVR）为例：

复制代码

                 Embedding Layer（共享）
                         │
                ┌────────┴────────┐
                │  Shared Experts │    ← 所有任务可用
                └────────┬────────┘
              ┌──────────┼──────────┐
              │          │          │
     Task-specific   Task-specific   (Optional 更多任务)
     CTR Experts      CVR Experts
              │          │
     ┌────────┴──────────┴────────┐
     │        Layer 1 GATES       │   ← 多任务各自 Gate 选择 Shared + Private
     └────────┬──────────┬────────┘
              │          │
      CTR Tower      CVR Tower
              │          │
         P(click)    P(purchase)

与 MMOE 最大区别：

结构项	MMOE	PLE
专家组成	全共享	共享专家 + 私有专家
共享比例	Gate 自己决定	共享路径受结构约束
信息流动	一次性共享	逐层共享（Progressive）
任务污染风险	中	低（更干净）

工程落地效果：多个大厂验证后结论一致 → PLE 比 MMOE 更稳、更可控、更适合多目标推荐系统

5.4 PLE 公式（比 MMOE 更简单）

与 MMOE 唯一区别：

Gate 输入 = 共享专家 + 任务专家
Gate 输出 = Softmax 权重
任务自己永远能访问任务专家（有兜底）
共享专家只能"逐层抽取"

数学不展开，原因：训练逻辑与 MMOE 相同，只是输入源变了

→ 实现成本 ≈ MMOE，但效果更好

5.5 PLE 工业界价值

维度	表现
模型可控性	强
稳定性	强
任务扩展	强（可加 n 个任务）
防任务污染能力	最强
工业适用性	最推荐

所以各大互联网广告系统（如 TikTok/阿里/腾讯/美团）多任务结构现在大多数采用：

PLE + 蒸馏 + MoE（大模型化）

小结：五模型对比（DNN → DeepFM → ESMM → MMOE → PLE）

模型	适用场景
DNN	单任务基线
DeepFM	单任务 CTR 预估
ESMM	CTR+CVR 两任务（新手首选）
MMOE	多任务但不太复杂
PLE（最佳实践）	工业级多任务（强烈推荐）