【原理到实战】实验异质性分析

  1. 什么是实验的异质性
    1. 什么是异质性

当我们看到如下实验平台指标结果时

实验分组 指标值
对照组 100
实验组 99.96
相对差异 -0.04%

在进行分析前,可能我们的第一直觉是这样的

经过异质性分析后,可能会发现实际情况是这样的

  1. 概念解析与定义

一般来讲,HTE的全称为Heterogeneous Treatment Effects,即异质处理效应,意为实验中同一个treatment对不同的实验样本,得到的策略效果可能是不一样的。另外还有一些重要的概念需要大家理解

| 英文简称 | 英文全称 | 中文译名 | 含义 | 公式 |
|------|--------------------------------------|----------|--------------------|--------------------------------------|------------|
| ATE | Average Treatment Effect | 平均处理效应 | 所有实验对象的平均实验效果 | ATE=E[Y(1)-Y(0)] |
| CATE | Conditional Average Treatment Effect | 条件平均处理效应 | 满足一定条件的实验对象的平均实验效果 | CATE_X=E[Y_x(1)-Y_x(0) | x \in X] |
| ITE | Individual Treatment Effect | 个体处理效应 | 某个实验对象的实验效果 | ITE_i=E[Y_i(1)-Y_i(0)], i=1,2,...N |

** 此处采用Donald Rubin提出的潜在因果框架(Potencial outcome)来对实验效果进行统计公式上的描述 [1]*

  • 由于业内并没有统一的定义,HTE、CATE、ITE概念在一定程度上会有混用的情况,读者需要参考描述以及上下文综合判断名词的含义
  1. 异质性分析对于业务的意义
    1. 了解策略对于不同用户的不同效果,协助挖掘背后的业务逻辑,辅助迭代、进行新一轮的实验
    2. 尝试寻找策略最优子人群,让整体无效的策略,有机会进行部分先推全;反之依然,让部分负向的策略,减少损失
    3. 对实验结果建模后预测,对线上提供动态的最优人群支持

根据实验平台数据科学团队测算,以京东零售某产品线下6月运行中的实验为例,仅23%左右的实验没有在实验人群视角发现异质性

  1. 异质性分析方法概述
    1. 异质性分析的维度选择
      1. 对于分流单元的维度X,当X满足以下条件时,可以作为异质性的维度进行后续分析
        • T \perp X,即分析维度与实验分流无关 (Unconfoundedness)
        • 分析工具化的常见简化方式:对于一个分流ID,选取他在首次进入实验前一天的标签取值
        • 简单推导:

CATE_X

= E[Y_x(1) - Y_x(0)|x \in X] \qquad\qquad\qquad\qquad\qquad \dots (1)

= E[Y_x(1)|x \in X] - E[Y_x(0)|x \in X] \qquad\qquad\qquad\dots (2)

= E[Y_x(1)|T_i=1, x \in X] - E[Y_x(0)|T_i=0, x \in X] \dots (3)= E[Y_i|T_i=1, x \in X] - E[Y_i|T_i=0, x \in X] \qquad\dots (4)

T是随机化的, T \perp Y, T \perp X ,所以 E[Y_i(1)|x \in X]=E[Y_i(1)|T_i=1,x \in X] ,所以(3)成立

  1. 异质性分析的维度分析bad case举例
分析目标 & 常见错误方法举例 不成立原因简述 推荐的实验分析方式
- 不同活跃度人群的策略效果
  • 在实验运行7天后,利用实验用户在第7天的活跃度标签进行结果拆解 | 在实验开始后,用户的活跃度标签受到了策略影响,即T \perp X不成立 | 使用用户在进入实验前1天的活跃度标签值 | | - 分别分析低频策略、中频策略、高频策略对于低、中、高频用户的策略效果
  • 按天取每天用户的活跃度标签,对实验结果进行拆解 | - 用户的活跃度标签受到了策略影响,即T \perp X不成立
  • 用户所在分组应该是确定的,不随时间改变 | 分别建立3个人群正交实验 | | - 分析高单价类目商品(3C家电)和低单价类目商品(休闲食品)的转化率差异
  • 选取xx类目曝光用户,计算实验周期内对应类目的曝光订单转化率 | 分析目标是面向指标维度的(sku所在类目),而非分流单元的维度(C端实验通常为账号、设备),不适用本文提到的异质性分析方法 | 1. 应该使用指标维度下钻进行分析
  1. 曝光订单转化率的分子、分母均受到策略影响,需在观测全面后综合判断 |

  2. 异质性分析的方法选择

研究对象 研究方法 适用场景 pros & cons
CATE 维度下钻 - 低维
  • 分析目标明确 | + 快速简单,便于理解+ 产品化容易- 维度选择依赖分析师经验- 交互效应处理困难 | | 方差分析(ANOVA,ANCOVA) | - 低维
  • 分析目标较明确
  • 交互效应评估 | + 解释性强,统计学理论背书+ 可以处理低维度交互效应+ 可作为feature selection的候选方法- 基于线性模型假设- 高维度交互效应解读困难 | | | 因果树(Causal Tree) | - 高维
  • 分析目标不明确,希望探索 | + 建模方法符合分析直觉- 模型复杂度不足,无法准确描述复杂的现实世界效果- 本方法为现代机器学习因果算法的基石之一,有更好的替代方案 | | | ITE | Meta - Learner | - 高维
  • 希望输出ITE
  • 算法训练 | + 算法常用,可大规模并行,有工程化先例+ 在过往的simulation中X-learner对ITE估计的准确度表现优秀+ X-learner通常使用xgboost模型,对各种feature有较强的处理能力- 计算量大,耗资源- 需要调参- 由于缺乏统计推断结果,一般不会直接产出p-value,存在对于ITE数值准确性的质疑,算法利用结果的rank居多 | | DML | - 高维
  • 希望输出ITE和置信区间 | + 有严谨统计理论证明ITE估计的无偏有效性,可产出样本级的ITE以及置信区间+ 在过往的simulation中Causal Forest DML对ITE估计的准确度表现优秀+ DML模型框架本身具备一定的robust特性,在结合Forest模型后,调参需求低,不容易过拟合,对各种feature有较强的处理能力- 慢,耗资源,工程化先例少 | | | ITE + CATE hybrid | ITE Model + Decision Tree Interpreter | - 高维
  • 分析目标不明确,希望探索 | + 决策树的建模方法符合分析直觉+ ITE模型可以较好的对复杂的现实世界进行抽象总结- ITE模型可能会慢 |
  1. 实验CATE下钻探索工具MVP版逻辑介绍

实验平台数据科学团队已经产出python工具包,可以半自动化的利用6行代码实现平台上实验异质性的探索分析,可以实现以下功能

  1. 通过填写YAML配置,自动生成实验分析SQL,并执行取数,目前包括
    1. 自动获取试金石实验分流信息
    2. 自动获取试金石实验指标信息
    3. 解析实验CATE研究使用的用户标签表
    4. 自动生成所有数据源的关联关系
  2. 为实验CATE研究提供自动化工具,目前包括
    1. 自动化生成实验目标指标的CATE差异最大化子人群
    2. 提供调参接口,高级用户可自定义模型参数
    3. 提供可视化的模型结果输出,高级用户可根据输出调节模型表现
  3. 为实验的下钻分析提供探索、分析功能,目前包括
    1. CATE人群的实验效果统计检验
    2. CATE人群的多指标拆解
    3. CATE人群的特征描述
  4. 实验异质性分析show case
    1. 某真实实验case的CATE结果分析,此项目整体实验指标为负向不显著,但通过运行分析工具后发现,有两类子人群分别具有正向和负向的显著效果
自动探索分析模型的树结构 自动探索分析模型产出的异质性人群实验结果
  1. 对于这些子人群,我们发现他们的用户画像具备不同的特征,在业务漏斗的实验结果也不一致,那么下次对频道再次进行迭代时,产品经理可以有针对性的对负向人群的体验进行优化
相关推荐
龙腾AI白云3 小时前
具身智能-高层任务规划(High-level Task Planning)
深度学习·数据挖掘
zenRRan9 小时前
英伟达提出“思考用扩散,说话用自回归”:实现语言模型效率与质量的双赢!
人工智能·机器学习·语言模型·数据挖掘·回归
EAIReport9 小时前
企业人力资源管理数据分析:离职因素与群体特征研究
人工智能·数据挖掘·数据分析
x***J34810 小时前
Docker数据挖掘开发
docker·容器·数据挖掘
泰迪智能科技0110 小时前
数据挖掘平台建设案例分享——长春大学
人工智能·数据挖掘
~~李木子~~15 小时前
中文垃圾短信分类实验报告
人工智能·分类·数据挖掘
xuehaikj1 天前
香烟品牌识别与分类:yolov5-LSKNet模型应用
yolo·数据挖掘
马拉萨的春天1 天前
iOS的分类中为什么不能添加变量以及如何设置关联对象的弱引用效果
ios·分类·数据挖掘
q***31891 天前
爬虫基础之爬取某基金网站+数据分析
爬虫·数据挖掘·数据分析