- 什么是实验的异质性
-
- 什么是异质性
当我们看到如下实验平台指标结果时
| 实验分组 | 指标值 |
|---|---|
| 对照组 | 100 |
| 实验组 | 99.96 |
| 相对差异 | -0.04% |
在进行分析前,可能我们的第一直觉是这样的
经过异质性分析后,可能会发现实际情况是这样的
- 概念解析与定义
一般来讲,HTE的全称为Heterogeneous Treatment Effects,即异质处理效应,意为实验中同一个treatment对不同的实验样本,得到的策略效果可能是不一样的。另外还有一些重要的概念需要大家理解
| 英文简称 | 英文全称 | 中文译名 | 含义 | 公式 |
|------|--------------------------------------|----------|--------------------|--------------------------------------|------------|
| ATE | Average Treatment Effect | 平均处理效应 | 所有实验对象的平均实验效果 | ATE=E[Y(1)-Y(0)] |
| CATE | Conditional Average Treatment Effect | 条件平均处理效应 | 满足一定条件的实验对象的平均实验效果 | CATE_X=E[Y_x(1)-Y_x(0) | x \in X] |
| ITE | Individual Treatment Effect | 个体处理效应 | 某个实验对象的实验效果 | ITE_i=E[Y_i(1)-Y_i(0)], i=1,2,...N |
** 此处采用Donald Rubin提出的潜在因果框架(Potencial outcome)来对实验效果进行统计公式上的描述 [1]*
- 由于业内并没有统一的定义,HTE、CATE、ITE概念在一定程度上会有混用的情况,读者需要参考描述以及上下文综合判断名词的含义
- 异质性分析对于业务的意义
-
- 了解策略对于不同用户的不同效果,协助挖掘背后的业务逻辑,辅助迭代、进行新一轮的实验
- 尝试寻找策略最优子人群,让整体无效的策略,有机会进行部分先推全;反之依然,让部分负向的策略,减少损失
- 对实验结果建模后预测,对线上提供动态的最优人群支持
根据实验平台数据科学团队测算,以京东零售某产品线下6月运行中的实验为例,仅23%左右的实验没有在实验人群视角发现异质性
- 异质性分析方法概述
-
- 异质性分析的维度选择
-
- 对于分流单元的维度X,当X满足以下条件时,可以作为异质性的维度进行后续分析
-
- T \perp X,即分析维度与实验分流无关 (Unconfoundedness)
- 分析工具化的常见简化方式:对于一个分流ID,选取他在首次进入实验前一天的标签取值
- 简单推导:
CATE_X
= E[Y_x(1) - Y_x(0)|x \in X] \qquad\qquad\qquad\qquad\qquad \dots (1)
= E[Y_x(1)|x \in X] - E[Y_x(0)|x \in X] \qquad\qquad\qquad\dots (2)
= E[Y_x(1)|T_i=1, x \in X] - E[Y_x(0)|T_i=0, x \in X] \dots (3)= E[Y_i|T_i=1, x \in X] - E[Y_i|T_i=0, x \in X] \qquad\dots (4)
T是随机化的, T \perp Y, T \perp X ,所以 E[Y_i(1)|x \in X]=E[Y_i(1)|T_i=1,x \in X] ,所以(3)成立
- 异质性分析的维度分析bad case举例
| 分析目标 & 常见错误方法举例 | 不成立原因简述 | 推荐的实验分析方式 |
|---|---|---|
| - 不同活跃度人群的策略效果 |
- 在实验运行7天后,利用实验用户在第7天的活跃度标签进行结果拆解 | 在实验开始后,用户的活跃度标签受到了策略影响,即T \perp X不成立 | 使用用户在进入实验前1天的活跃度标签值 | | - 分别分析低频策略、中频策略、高频策略对于低、中、高频用户的策略效果
- 按天取每天用户的活跃度标签,对实验结果进行拆解 | - 用户的活跃度标签受到了策略影响,即T \perp X不成立
- 用户所在分组应该是确定的,不随时间改变 | 分别建立3个人群正交实验 | | - 分析高单价类目商品(3C家电)和低单价类目商品(休闲食品)的转化率差异
- 选取xx类目曝光用户,计算实验周期内对应类目的曝光订单转化率 | 分析目标是面向指标维度的(sku所在类目),而非分流单元的维度(C端实验通常为账号、设备),不适用本文提到的异质性分析方法 | 1. 应该使用指标维度下钻进行分析
-
曝光订单转化率的分子、分母均受到策略影响,需在观测全面后综合判断 |
-
异质性分析的方法选择
| 研究对象 | 研究方法 | 适用场景 | pros & cons |
|---|---|---|---|
| CATE | 维度下钻 | - 低维 |
- 分析目标明确 | + 快速简单,便于理解+ 产品化容易- 维度选择依赖分析师经验- 交互效应处理困难 | | 方差分析(ANOVA,ANCOVA) | - 低维
- 分析目标较明确
- 交互效应评估 | + 解释性强,统计学理论背书+ 可以处理低维度交互效应+ 可作为feature selection的候选方法- 基于线性模型假设- 高维度交互效应解读困难 | | | 因果树(Causal Tree) | - 高维
- 分析目标不明确,希望探索 | + 建模方法符合分析直觉- 模型复杂度不足,无法准确描述复杂的现实世界效果- 本方法为现代机器学习因果算法的基石之一,有更好的替代方案 | | | ITE | Meta - Learner | - 高维
- 希望输出ITE
- 算法训练 | + 算法常用,可大规模并行,有工程化先例+ 在过往的simulation中X-learner对ITE估计的准确度表现优秀+ X-learner通常使用xgboost模型,对各种feature有较强的处理能力- 计算量大,耗资源- 需要调参- 由于缺乏统计推断结果,一般不会直接产出p-value,存在对于ITE数值准确性的质疑,算法利用结果的rank居多 | | DML | - 高维
- 希望输出ITE和置信区间 | + 有严谨统计理论证明ITE估计的无偏有效性,可产出样本级的ITE以及置信区间+ 在过往的simulation中Causal Forest DML对ITE估计的准确度表现优秀+ DML模型框架本身具备一定的robust特性,在结合Forest模型后,调参需求低,不容易过拟合,对各种feature有较强的处理能力- 慢,耗资源,工程化先例少 | | | ITE + CATE hybrid | ITE Model + Decision Tree Interpreter | - 高维
- 分析目标不明确,希望探索 | + 决策树的建模方法符合分析直觉+ ITE模型可以较好的对复杂的现实世界进行抽象总结- ITE模型可能会慢 |
- 实验CATE下钻探索工具MVP版逻辑介绍
实验平台数据科学团队已经产出python工具包,可以半自动化的利用6行代码实现平台上实验异质性的探索分析,可以实现以下功能
- 通过填写YAML配置,自动生成实验分析SQL,并执行取数,目前包括
-
- 自动获取试金石实验分流信息
- 自动获取试金石实验指标信息
- 解析实验CATE研究使用的用户标签表
- 自动生成所有数据源的关联关系
- 为实验CATE研究提供自动化工具,目前包括
-
- 自动化生成实验目标指标的CATE差异最大化子人群
- 提供调参接口,高级用户可自定义模型参数
- 提供可视化的模型结果输出,高级用户可根据输出调节模型表现
- 为实验的下钻分析提供探索、分析功能,目前包括
-
- CATE人群的实验效果统计检验
- CATE人群的多指标拆解
- CATE人群的特征描述
- 实验异质性分析show case
-
- 某真实实验case的CATE结果分析,此项目整体实验指标为负向不显著,但通过运行分析工具后发现,有两类子人群分别具有正向和负向的显著效果
| 自动探索分析模型的树结构 | 自动探索分析模型产出的异质性人群实验结果 |
|---|---|
- 对于这些子人群,我们发现他们的用户画像具备不同的特征,在业务漏斗的实验结果也不一致,那么下次对频道再次进行迭代时,产品经理可以有针对性的对负向人群的体验进行优化