【第六章:项目实战之推荐/广告系统】3.精排算法-(2)精排算法模型精讲: DNN、deepFM、ESMM、PLE、MMOE算法精讲与实现- PLE 模型

第六章:项目实战之推荐/广告系统

第三部分:精排算法

第二节:精排算法模型精讲: DNN、deepFM、ESMM、PLE、MMOE算法精讲与实现

5.PLE(Progressive Layered Extraction)模型------ 最稳定、工业级多任务学习模型

5.1 PLE 想解决什么问题?

MMOE 虽然比 ESMM 好很多,但仍有两个工程上绕不开的问题:

MMOE 问题 影响
Gate 仍可能选错专家 → 任务污染仍在 CTR 梯度把 CVR 专家拉偏,或反之
共享比例不可控 共享多少、独立多少,全由 Gate 决定,模型不透明

在推荐系统的 多目标场景(Mutil-Task,例如 CTR / CVR / WatchTime / Like / Follow / Comment) 中,这种不稳定会被无限放大。

工业界需要一个"共享可控、避免污染、可扩展" 的结构 → PLE 应运而生

所以一句话总结:

模型 核心共享策略
Hard Sharing(如 ESMM) 强共享,容易任务冲突
MMOE 软共享,但共享比例不可控
PLE 分层共享 + 专家分组 + 强约束共享路径(最稳定)

5.2 PLE 结构核心思想:共享归共享,私有归私有

PLE 的关键策略:

组件 作用
Shared Experts(共享专家) 给所有任务共享的特征能力(如基础兴趣、通用语义)
Task-specific Experts(任务私有专家) 各任务专属,不被其他任务污染
Gates 多层选择 每一层都"逐步筛选"共享信息,越深越任务化

这一点像现实中的人类合作:

"有些能力是共同培养的(通识课)"

"有些能力必须专门训练(各自专业课)"

"并且共享不能一刀切,而要逐层递进"


5.3 PLE 模型结构(最容易理解的 ASCII 图)

以 2 任务(CTR / CVR)为例:

复制代码
                 Embedding Layer(共享)
                         │
                ┌────────┴────────┐
                │  Shared Experts │    ← 所有任务可用
                └────────┬────────┘
              ┌──────────┼──────────┐
              │          │          │
     Task-specific   Task-specific   (Optional 更多任务)
     CTR Experts      CVR Experts
              │          │
     ┌────────┴──────────┴────────┐
     │        Layer 1 GATES       │   ← 多任务各自 Gate 选择 Shared + Private
     └────────┬──────────┬────────┘
              │          │
      CTR Tower      CVR Tower
              │          │
         P(click)    P(purchase)

与 MMOE 最大区别:

结构项 MMOE PLE
专家组成 全共享 共享专家 + 私有专家
共享比例 Gate 自己决定 共享路径受结构约束
信息流动 一次性共享 逐层共享(Progressive)
任务污染风险 低(更干净)

工程落地效果:多个大厂验证后结论一致 → PLE 比 MMOE 更稳、更可控、更适合多目标推荐系统


5.4 PLE 公式(比 MMOE 更简单)

与 MMOE 唯一区别:

  • Gate 输入 = 共享专家 + 任务专家

  • Gate 输出 = Softmax 权重

  • 任务自己永远能访问任务专家(有兜底)

  • 共享专家只能"逐层抽取"

数学不展开,原因:训练逻辑与 MMOE 相同,只是输入源变了

实现成本 ≈ MMOE,但效果更好


5.5 PLE 工业界价值

维度 表现
模型可控性
稳定性
任务扩展 强(可加 n 个任务)
防任务污染能力 最强
工业适用性 最推荐

所以各大互联网广告系统(如 TikTok/阿里/腾讯/美团)多任务结构现在大多数采用:

PLE + 蒸馏 + MoE(大模型化)


小结:五模型对比(DNN → DeepFM → ESMM → MMOE → PLE)

模型 适用场景
DNN 单任务基线
DeepFM 单任务 CTR 预估
ESMM CTR+CVR 两任务(新手首选)
MMOE 多任务但不太复杂
PLE(最佳实践) 工业级多任务(强烈推荐)
相关推荐
会飞的老朱20 小时前
医药集团数智化转型,智能综合管理平台激活集团管理新效能
大数据·人工智能·oa协同办公
聆风吟º21 小时前
CANN runtime 实战指南:异构计算场景中运行时组件的部署、调优与扩展技巧
人工智能·神经网络·cann·异构计算
Codebee1 天前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
聆风吟º1 天前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys1 天前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_56781 天前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子1 天前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
智驱力人工智能1 天前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算
qq_160144871 天前
亲测!2026年零基础学AI的入门干货,新手照做就能上手
人工智能
Howie Zphile1 天前
全面预算管理难以落地的核心真相:“完美模型幻觉”的认知误区
人工智能·全面预算