【经典论文阅读11】ESMM模型——基于贝叶斯公式的CVR预估

传统的CVR模型(也就是直接对conversion rate建模的模型)在实际应用中面临两个问题(样本选择偏差与数据稀疏性问题)。为了解决这两个问题,本文提出ESMM模型。该模型巧妙地利用用户行为序列去建模这个问题,从而证明(在淘宝的业务场景下)对Post-click conversion Rate 非常有帮助。其实,其实的真实思想就是基于贝叶斯公式去预估CVR。

1. 摘要

1.1. 问题

  • 选择偏差问题(sample selection bias):之前的cvr模型在训练的时候是在有点的数据集上训练,但是推理(真实场景应用的时候)是在整个空间(不知道这个广告会不会被点,也不知道这个商品会不会被点击)这个问题很常见

  • 数据稀疏性(data sparsity)问题:让模型难以训练。

    • 与CTR相比,CVR的数据要少的多,所以训练CVR的模型相比有些困难。
      • CVR的数据量要比CTR的数据少1~3个数据级;
      • CVR的训练数据量大概只有CTR的4%。
    • 哪里的数据稀疏?为什么稀疏?
  • delayed feedback 问题

    这个问题也是CVR这个模型面临的问题,但是本文不再关注。

1.2. 解决方法

提出使用一种新的建模方法对CVR进行建模。这种建模方法模拟了用户的行为顺序模式,也就是:impression →click →conversion (展现、点击、转化),这里的转化指的就是购买、付费等行为。方法具体包括:

  • (1)在整个样本空间建模
  • (2)采用特征迁移策略(employing a feature representation transfer learning strategy)

2. Introduction

Introduction就是字数扩大版的摘要。

2.1. 介绍CVR这个任务

文章第一段、第二段在介绍CVR这个任务

CVR预估是排序系统中一个非常基础的工作,在在线广告、推荐系统中都非常重要。

CVR 建模指的就是:pCVR = p(conversion|click,impression)

2.2. 现存的问题

  • SSB问题
  • DS问题

2.3. 尝试的解法

这里不再啰嗦。

2.4. 提出的模型

提出ESMM 模型,这个模型包括:

  • 两个辅助任务:post-view click-through rate(CTR) + post-view click-through&conversion rate(CTCVR)
  • pCTCVR = pCTR * pCVRpCTCVRpCTR 都是在整个样本空间下进行估计。所以就缓解了SSB问题。
  • CVR网络的特征表示和CTR网络是共享,而CTR网络是在整个样本空间下训练的,所以就缓解了DS问题。

3. Method

pCVR 这个任务其实就是计算 p(z = 1|y=1, x),其中x是展现物品的特征向量表示,y=1表示有点击,z=1表示有转化(如购买、付费)

二者的递推关系式子:

3.1. 模型结构

模型结构,如下图所示:

  • 模型输入:~
  • 模型输出:在给出一个展现的前提下,输出pCTR, pCVR, pCTCVR。

3.2. 损失函数

只使用CTR and CTCVR 任务计算损失,在整个展现样本的空间下计算,没有使用CVR这个任务的损失。

使用的是交叉熵损失函数。

4. 数据实验

4.1. 数据集分布统计

4.2. 实验效果

  • 使用AUC指标,理解一下AUC指标是什么含义。

5. 问题

5.1. pCVR 中的p是什么意思?

一定要意识到这个p代表的是post-click,否则直接说是CVR 不就得了?

5.2 模型的输入是什么?

Q:模型具体的输入是什么?也就是对应图中的user fileditem filed 分别可以是什么样的数据呢?能举个例子吗?

A:【TODO】可以从下面这个链接中访问作者给出的公开数据集:https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408

5.3 跑一下模型【TODO】

5.4 SSB 问题的理解

6. 英语借鉴

  • borrowing the idea from multi-task learning... 从多任务学习借鉴方法
相关推荐
何大春14 小时前
【弱监督语义分割】Self-supervised Image-specific Prototype Exploration for WSSS 论文阅读
论文阅读·人工智能·python·深度学习·论文笔记·原型模式
Bearnaise2 天前
GaussianDreamer: Fast Generation from Text to 3D Gaussians——点云论文阅读(11)
论文阅读·人工智能·python·深度学习·opencv·计算机视觉·3d
PD我是你的真爱粉3 天前
Quality minus junk论文阅读
论文阅读
regret~3 天前
【论文笔记】LoFLAT: Local Feature Matching using Focused Linear Attention Transformer
论文阅读·深度学习·transformer
Maker~3 天前
23、论文阅读:基于多分辨率特征学习的层次注意力聚合GAN水下图像增强
论文阅读·学习·生成对抗网络
Q_yt3 天前
【图像压缩感知】论文阅读:Content-Aware Scalable Deep Compressed Sensing
论文阅读
江海寄3 天前
[论文阅读] 异常检测 Deep Learning for Anomaly Detection: A Review(三)总结梳理-疑点记录
论文阅读·人工智能·深度学习·机器学习·计算机视觉·语言模型·视觉检测
江海寄3 天前
[论文阅读] 异常检测 Deep Learning for Anomaly Detection: A Review (四)三种分类方法对比
论文阅读·人工智能·深度学习·机器学习·计算机视觉·分类
代码太难敲啊喂4 天前
【Anomaly Detection论文阅读记录】Resnet网络与WideResNet网络
论文阅读·人工智能
YunTM4 天前
革新预测领域:频域融合时间序列预测,深度学习新篇章,科研涨点利器
论文阅读·人工智能·深度学习