“A Deep Probabilistic Model for Customer Lifetime Value Prediction” 论文笔记

背景

现有 LTV 预测工作主要分为两种:一种是直接基于 MSE 建模 LTV;一种是两阶段建模,先用BCE建模付费概率,然后用MSE建模付费金额,排除 LTV 为0的样本的影响

但是LTV 数据的分布及其特殊,存在大量零值(大量客户是"一次性购买者",其 residual LTV = 0)和严重的高偏态连续值(少数高价值客户的 LTV 比普通客户高出几个数量级)。现有使用 MSE 损失的工作试图用一个单一的连续分布去拟合两个本质不同的群体,结果是"两边不讨好";使用两阶段建模又需要两个模型、复杂度高,MSE 对异常值敏感

ZILN 混合损失

本文主要提出了 Zero-Inflated LogNormal**(ZILN)** 损失函数本文来同时建模用户是否付费以及付费金额,其中第一项用交叉熵来建模用户是否付费,第二项用对数正态分布建模 LTV(假设了用户在已知付费的前提下付费金额服从对数正态分布),其中 \(x\) 为真实值,均值 \(\mu\) 和方差 \(\sigma\) 为模型的输出值:

\[L_{\text{ZILN}}(x; p, \mu, \sigma) = L_{\text{CrossEntropy}}(1_{\{x>0\}}; p) + 1_{\{x>0\}}L_{\text{Lognormal}}(x; \mu, \sigma) \]

\[L_{\text{Lognormal}}(x; \mu, \sigma) = \log(x\sigma\sqrt{2\pi}) + \frac{(\log x - \mu)^2}{2\sigma^2} \]

线上 infer 时模型的预估输出为学到的分布的期望 \(\exp(\mu + \sigma^2 / 2)\),最优预测会自动大于观测样本的算术平均;此外,从图中可以看到(真实值是 20,横坐标是模型输出的点预测值),在原始值空间中 lognormal loss 对高值的惩罚比 MSE 小。综上所述,对数正态分布所以更匹配 LTV 数据 "零值多、右尾厚" 的分布特征

模型架构

本文使用 DNN 作为模型架构,DNN 的最后一层包含 3 个输出,分别表示付费概率、均值 μ 和方差 σ(分别使用 sigmoid、identity、softplus 激活函数)。最终通过 ZILN 混合损失实现一个模型同时完成分类和回归两个任务

评估指标

Gini 系数

Gini 系数是经济学中衡量收入或财富不平等程度的指标,值越大代表越不平等,本文对这个原始概念做了改造以用于 LTV 数据:

  • 按客户的真实 LTV 从大到小排序

  • 画出 Lorenz 曲线:横轴是累积客户百分比,纵轴是累积 LTV 百分比(20% 的客户贡献了 80% 的 LTV 即 80/20 法则)

  • Gini 系数 = Lorenz 曲线与 45° 对角线之间面积的两倍

所以标签 Gini 系数反映了客户消费的不平等程度,值越大说明头部客户越集中。本文还引入归一化 Gini 系数:Normalized Gini = (模型 Gini 系数) / (标签 Gini 系数) 用来衡量模型的区分度,有没有把真正的高价值用户排到前面

校准图

校准图(Decile Chart)的构建方法:

  • 把所有客户按预测 LTV 从低到高排序

  • 均匀分成 10 组(每组 10% 的客户,称为一个 decile)

  • 对每个 decile,分别计算 该组内预测 LTV 的平均值 和 真实 LTV 的平均值

  • 用柱状图并排展示这两个均值

总结

这篇是谷歌在 LTV 领域非常经典的一篇论文,给出了一个将分类和回归集成在一个 Loss 中的比较好的方案(ZILN 混合损失),也给后续所有工作都提供了一个新的视角

相关推荐
AGV算法笔记3 小时前
目标检测论文精读:Deformable DETR 为什么被认为是 DETR 真正走向实用的关键一步?
人工智能·深度学习·目标检测·机器学习·计算机视觉·目标跟踪
model20053 小时前
yolo26训练自己数据集
人工智能·深度学习
极光代码工作室3 小时前
基于机器学习的商品价格预测系统
人工智能·深度学习·机器学习·ai·系统设计
古希腊掌管代码的神THU3 小时前
【清华代码熊】DeepSeek V4多模态技术解析:以视觉基元思考
人工智能·深度学习·自然语言处理
机器学习之心4 小时前
GAT-TCN-Transformer 回归模型 + SHAP 可解释性分析:空间、局部与全局的时空建模利器
深度学习·回归·transformer
这张生成的图像能检测吗4 小时前
(论文速读)Shift:通过减少概念漂移解决时间序列预测泛化问题
人工智能·深度学习·transformer·时序模型
wangqiaowq4 小时前
模型合并,转换,量化压缩,部署
人工智能·深度学习
生物信息与育种5 小时前
实战总结:用 rMVP 做植物 GWAS 的标准工作流与避坑指南
人工智能·深度学习·职场和发展·数据分析·r语言
deephub6 小时前
用 Playwright 和 LLM 实现自愈测试自动化
人工智能·深度学习·自动化·大语言模型·playwright