可信实验白皮书系列03:随机对照实验

本文系《可信实验白皮书》系列的第三篇文章,第一篇文章我们介绍了为什么要写AB实验白皮书,第二篇文章讲解了AB实验的理论原理及其背后的统计学基础。本篇我们将重点介绍随机对照实验相关的一些基础知识,以及提高实验功效的一些常见方法。

备注:本篇排版为图文混合排版,如果想获得更好的阅读体验,建议访问「美团技术团队」知乎官方账号《可信实验白皮书系列03:随机对照实验》

在美团到家业务场景中,经常会碰到随机分流的实验场景,比如全城AOI(Area of Interest,可以是小区、学校等点位,是按照社会功能定位,在地图上将特定区域绘制成一个个电子围栏的面状地理信息)随机分流或者订单随机分流。在随机对照实验中,我们可以定量判断A、B两个策略是否有显著的差异,如果有差异则进一步探究哪个更有效,并依次对更优的策略进行推广。因此,随机对照实验是帮助业务和算法探索并迭代策略的重要工具。

3.1 经典随机对照实验

随机对照实验是AB实验最基础且最重要的实验方式。对于施加实验策略的对象,理想情况下,我们想要在完全相同的时间与外部环境下将其与不施加实验策略的对象进行对比。但是我们没有穿梭时空的超能力去直接观测另一个平行时空中这些对象的表现。而随机对照实验就是连通现实与平行世界的一个桥梁,使得我们可以人为模拟出平行世界中的情形。

另一个重要假设是个体处理稳定性假设,即SUTVA假设(Stable Unit Treatment Value Assumption)。它要求实验单位的表现是独立的,且干预效果稳定,实验单元的行为结果不受到其他单元分组的影响,不会因为实验组和对照组的关联而产生干扰或者溢出。

3.1.1 随机对照实验的限制与挑战

随机化分组能使所有可能的混杂变量(包括未观测到的混杂变量)在实验组和对照组之间呈均匀分布,消除混杂变量带来的影响,提升结果可信度。因此,只要实验条件允许,随机对照实验就是我们的首选选择。在理想情况下,同一个个体在两个平行时空完全一样。但现实生活往往不如人所愿,在有限的样本量下,随机分出的两部分对象会存在一定差异,也即可交换性无法严格满足。此时,我们需要一些定量标准来刻画两组之间的差异是否可以被忽略,即同质性检验。在随机对照实验中,我们会选取一段实验前周期,对实验组和对照组两组的需要考察的一些指标值进行差异是否显著的检验。当两组结果没有检验出显著差异时,我们可以认为同质性检验通过,也即可交换性近似满足,此时使用随机对照实验得到的结果是可信的。

尽管随机对照实验的可信性最高,我们也常常会面临很多客观上的限制与挑战:

  1. 公平性:在一些特殊业务场景,考虑到对用户以及骑手等群体的公平性,无法对考察群体进行随机分组
  2. 溢出效应:实验单元之间存在相互影响与干扰,造成结果偏差。例如,在调度算法等场景,分别在实验组和对照组的两个区域往往会召回相同的骑手,即存在实验组和对照组两组之间的相互干扰。
  3. 小样本量情形:美团履约业务中有很多通过地理单元分流的随机对照实验。对于使用配送城市、配送区域、配送站点等面积较大单元的实验,在可用流量有限的情况下,样本量一般较少(几十个甚至十几个)且地域差异明显,分组难以保证同质且难以检测出显著的策略提升效果。
  4. 业务影响:在诸多业务场景会考量留对照组对实际业务影响的情况。如果对照组流量过多,可能存在影响当前线上策略效率的风险,从而对体验指标造成影响,造成用户端客诉。为了不影响正常业务,一些场景的实验组比对照组会采用95:5等极端的分组比例,实验功效较低难以检测出显著的策略提升。
  5. 流量未全部触发策略:在履约业务中,存在很多圈选流量与实际策略触发流量不完全一致的情况。为了准确评估策略效果,我们应该考察实际被策略触发的流量。此时的同质性需要进一步重新验证。

在美团的实验应用中,经典的随机对照实验通过普通随机分组和完全随机分组两种方式来实现,并相应配套有同质性检验和显著性检验的评估方式。通常来说,我们会取实验前一段周期的实验组和对照组两组指标表现,来进行同质性检验以验证分组特征的均衡性,也即近似保证随机对照实验的可交换性。而在实验完成后,我们会取实验期间的指标数据进行显著性检验,来判断策略效果是否显著有效。同质性检验和显著性检验实际上使用的都是下面同一套流程与方法,区别在于:我们希望同质性检验结果不显著,则可以认为两组表现相似,而希望显著性结果显著,则可以认为策略有效。本文主要详细讨论两组的情况,多组情况下相应的分组与评估方式可以类似推广,这里不再过多地进行阐述。

3.1.2 普通随机分组

正交的AB实验,需要保证流量足够的均匀分散,这就需要一个性能高、效果好的Hash算法来支撑,这里我们选用了MurmurHash3_32。

1.分组机制

2.适用场景

  • 实验单位之间相互独立;
  • 尤其适用于样本量较大,随着实验不断进行,可能有新的实验单位不断进入实验的场景。比如订单分流、用户分流、AOI分流等实验场景。

3.评估方式

(1)连续型指标

Delta方法

Bootstrap方法

(2)比率型指标

Delta方法

Bootstrap方法

3.1.3 完全随机分组

由于互联网很多涉及订单的实验有几十万以上的海量数据,这种大样本情况下会广泛使用哈希函数来进行普通随机分组。而在美团的履约配送业务当中,常常会涉及人群分流以及配送城市、区域、站点等地理单元的分流,圈选出的样本量相对较少。例如,人群分流涉及的样本量较少时在1000左右,且由于业务约束一般只能允许留有较少的对照组,会采用相对极端的分流比例(例如95:5)。此时如果采用普通随机分组方式,一定概率会出现1000人的分组中对照组只有30~40人的情况,实际会较大影响实验的检验功效。同样的,对于较大面积的地理单元分流,通常样本量在100以下,即使采用5:5分流,也可能出现分组较不均匀的情况。因此,在这种情况下,我们会采用完全随机分组的方式,以事先严格保证最终分组的比例与实验设定的比例一致,使实验符合预期设定。

1.分组机制

2.适用场景

  • 实验单位之间相互独立;
  • 适用于实验前能够确定全部进入实验的实验单元的场景;
  • 对于小样本的实验推荐采用,以确保分组比例与实验功效,尤其是分组比例不均衡的情形。

3.评估方式

评估方式与完全随机轮转的实验方式相同,都可以通过Fisher方法和Neyman方法来计算,其中Fisher对小样本情形的显著性计算更为准确但计算成本相对高,Neyman方法在大样本情形中计算更为便捷。具体方法原理可以参见第四章随机轮转实验。

3.1.4 评估中的统计陷阱

在实验的评估中,常用的显著性计算公式并不是放之四海而皆准的,需要结合实际场景与使用方式精细判断。实验者需要关注一些潜在的统计陷阱,防止得出错误的显著性结果:

  1. 分配机制陷阱:忽视样本在实验组或对照组的分配机制,可能会导致方差计算的错误。例如业务上有时由于产品限制,会采用对流量id奇偶分流进行实验,这时实际上没有任何随机性,且与其他随机实验的流量不正交,容易影响其他进行随机分流实验的结果。又例如一些业务方可能会对实验单位进行分层分组以确保各层表现相似,又或者通过多次分组来使两组指标差异小于一定的阈值。这时实际上已经对分流的随机性进行了限制,使用常规公式进行显著性计算时会高估方差。在本章后续3.3节中会讨论分层随机分组相关内容,在3.5中会提及重随机化的显著性计算方式。
  2. 计算口径陷阱:不同的指标类型,比如连续型指标、比率型指标、求和型指标,或者不同的指标差值口径,比如计算绝对差值、相对差值或者ROI差值,其显著性计算的方式都有所不同。如果忽视这些差异,可能会导致方差计算的错误。
  3. 检验方法陷阱:对于不同的样本量和数据分布特性,应该选用合理的分析方法。当样本量比较大时,我们根据中心极限定理可以认为数据的均值近似服从正态分布,从而可以使用Delta方法评估;而当样本量很小或者数据分布离正态分布差异较大时,此时使用Delta方法评估可能会导致方差估计不准,我们需要采用更为稳健的非参数检验方式,如Bootstrap估分布等方式。
  4. 多重比较陷阱 :当指标个数较多时或者有多个实验组时,此时会涉及同时进行多组假设检验。单个假设检验可以控制第一类错误为 <math xmlns="http://www.w3.org/1998/Math/MathML"> α \alpha </math>α,而多个假设检验中至少一个被错误拒绝的概率却是大于 <math xmlns="http://www.w3.org/1998/Math/MathML"> α \alpha </math>α的。因此如果不考虑使用多重比较对 <math xmlns="http://www.w3.org/1998/Math/MathML"> p p </math>p值进行修正,可能出现假阳性,影响对策略结果的判断。在第七章的高阶工具中我们会详细论述多重比较的用法。
  5. 独立性陷阱:分析单位与分流单位的不同,可能会带来错误的方差计算。通常来说能使用随机对照实验的情况中,分流单位之间是独立的,但更细的分析单位无法保证独立性,例如分流单位是用户,但我们期望分析每个用户下的订单,这时订单之间相互并不是独立的。我们在方差计算时需要注重单位之间的独立性。

3.1.5 特殊指标类型的评估方式

1.求和型指标

在一些特殊的实验场景中,会存在无法圈选或定义实际受策略影响的实验单位,只能获取产生事实的实验单位,因此如果使用常规的均值计算方式是不合理的。例如假设在一些uuid随机分流实验中,我们只能取到下单用户的数据,实验组策略使部分不会下单的用户下了少量单,只取下单数据分析很可能导致实验组单量均值降低,但单量的总和是增加的。对于连续型指标的这种情况,我们采用求和计算来评估是更加符合常理的。与均值计算相比,主要差异体现在相对提升以及方差的计算上。

Delta方法

Bootstrap方法

2.ROI型差值

在履约涉及花费的业务中,除了考虑常规的指标提升,还需要考察效率。从指标定义上来说,所针对的指标本质也是比率型指标,但计算的不是绝对差值,即实验组分子/实验组分母-对照组分子/对照组分母,而是计算ROI型差值,即:

3.1.6 随机对照实验配套功能

1.验证样本量均衡的SRM检验

验证实验中的样本分布是否与预期一致的检验,被称为SRM(Sample Ratio Mismatch)检验。如果SRM检验不通过,那么除非我们能够诊断SRM的原因在哪里,否则结果是不可信的。因为SRM检验不通过时,可能由于一些潜在原因导致分组的随机性被破坏,从而违反随机对照实验的基本假设。SRM的成因多种多样,原因大致可分为五类:

  1. 实验分配阶段,例如流量未正确分桶、随机分组方法有问题等;
  2. 策略实质性阶段,例如各组的准入条件发生了变化、数据传递丢失等;
  3. 数据处理阶段,例如没有对未发生事实的单位补零等;
  4. 实验分析阶段,例如使用了错误的分析时间周期,使用了错误的过滤条件;
  5. 其他干预手段,例如遭受黑客攻击。

2.MDE与最小样本量计算

实验在当前条件下能有效检测的指标差异幅度即为MDE。在实验报告分析阶段计算MDE来判断不显著的指标结论是否是由于样本量不足所导致,避免实验在灵敏度不足的情况下得到非显著结论,而做出认为策略没有效果的误判。

具体的双边假设检验下MDE的计算公式如下:

3.2 提高实验功效的办法

在线上AB实验中,常常会出现实验功效不足而检测不出显著性的情况。一种最常用的方式是增加样本量来提高实验功效,但这会增大实验成本。另一种提高检测灵敏度的方式是创建一个方差更小并能捕捉相同信息的评估指标。方差缩减的方式有很多,例如CUPED、分层分析、回归调整、配对实验等。在这节我们主要介绍CUPED(Controlled Experiment Using Pre-Experiment Data)在履约和外卖实验中的一些应用,在下节中我们会讨论分层随机分组和配对随机分组。在履约和外卖的实验场景中,CUPED能够降低50%左右的策略效果估计量方差,大大提升检验灵敏度并减少实验所需样本量。

3.2.1 CUPED降方差原理

我们可以总结出,CUPED降方差主要有以下的适用条件:

  1. 有实验前可用的数据:例如用户、地理单元等实验单位,都有较长周期的实验前历史数据可用。对于订单等在实验中新产生的实验单元,没有历史数据可用,使用CUPED意义不大。
  2. 指标数据表现稳定:由上述的CUPED降方差思想可以看出,当使用的协变量(一般是实验前的指标数据)与实验数据相关性很高时,降方差效果越好。因此,当指标数据相对稳定,不会随时间变化或者开展实验而出现剧烈波动时,会呈现实验后数据与实验前数据有较好相关性的情况,从而能更多降低方差,提升实验功效。
  3. 选取的协变量对于实验组和对照组期望一致:当协变量受到干预变量影响的时候,此时导出的CUPED估计量不再是策略效果提升的无偏估计,可能存在偏差。因此实验前的指标值作为天然的满足不受干预影响的协变量,常常是CUPED协变量的首选。

3.2.2 连续型指标和比率型指标CUPED方法的应用

在业务中会遇到很多比率型指标的评估,这时我们无法直接使用经典的CUPED降方差方法。我们在常规CUPED方法的基础上,进一步建立了比率型指标的降方差方式。对于比率型指标,我们探索了如下三种基于回归调整的CUPED降方差的方法,其中二元回归系数调整CUPED方法和新CUPED方法都通过严格证明可以降低比率型指标的方差。

1.一元回归系数调整CUPED方法

2.二元回归系数调整Cuped方法

3.新CUPED方法

与前面部分对比率型指标的分子分母分别进行降方差操作不同的是,新CUPED方法直接对比率型指标整体进行降方差。核心思想参考了Deng et al. (2013)对于用户随机流时实验单元和分析单元不一致的情况,将其拓展到一般比率型指标上的应用。具体构造的无偏估计量如下:

再使用Delta方法分别计算两项的方差,以实验组为例,有:

3.3 进一步保证同质性的实验方式

同质性检验是一种用于确保在实验前通过随机分流后,实验组和对照组之间没有显著差异的手段。如果同质性检验未通过,则意味着在实验开始前,两组之间存在系统性差异。通常,对于那些在实验前后高度相关的指标来说,如果在实验前未能达到同质性,这些指标在实验后也可能表现出系统性差异,从而影响实验结论的准确性,无法真实反映策略效果。

随机对照实验是AB实验中最基本且可信度最高的方式,在样本量充足的情况下,能够有效平衡两组之间的协变量分布,从而通过同质性检验。然而,在特定的实验条件和业务需求下,简单的随机分流可能仍然无法完全满足实验需求。例如,在样本量较小的情况下(如几百甚至几十),单次随机分流难以轻松获得同质的分组,即使同质,组间差异可能仍然较大。

此外,业务上不仅关注实验组和对照组的整体同质性,还常常进一步关注按某些重要特征分层后的同质性,并对各层进行深入分析以获得精细化的实验结果。在有限样本量下,简单随机分流往往难以同时保证各层的同质性,尤其是在分层较多的情况下。对于一些不可预测和不可控的因素,我们也无法通过实验前的同质性验证来确保两组在实验期间的这些因素相似,而策略的触发条件或使用效果往往依赖于这些特殊因素。为了应对样本量有限、分层分析以及不可控因素等挑战,我们探索并制定了一些更加精细化的分组策略,以进一步保证同质性,从而提高实验的科学性和结果的可信度。在实际业务场景中,我们已经积累了分层随机分组、配对随机分组、协变量自适应分组等方法,以进一步确保同质性。接下来,我们将逐一介绍这些方法的原理和适用场景。

3.3.1 分层随机分组

在美团的实验场景中,分层随机分组被广泛应用于验证不同分层的运营策略的效果。通过这种方法,我们可以根据特定特征进行分层,在每一层进行完全随机分组,确保层内样本在主要特征上具有相似分布以满足同质性,从而减少潜在的混杂因素对每一层实验结果的影响,便于探查策略在不同层的效果,进行精细化分析。此外分层随机分组在数学上实际等价于CUPED中将协变量设置为分层协变量的示性函数的情形,在层间差异显著时能够有效降低方差,提高实验功效。分层抽样的核心思想是将总体样本根据分层协变量情况(如年龄、性别、城市规模等)分为若干独立的层,然后在每层内分别进行随机分组,并聚合各层结果以获得最终估计。以下是关于分层随机分组的一些应用经验与建议。

1.优点

  • 提高同质性:通过在层内随机化,保证了实验组和对照组在分层变量上的相似性,从而提高了实验的同质性。
  • 减少偏差:进一步有效控制潜在的混杂变量,尤其减少了分层协变量对实验结果的影响。
  • 提高统计功效:由于减少了组间差异,分层随机分组通常能够提高统计分析的功效。

2.局限性

  • 分层变量选择的挑战:选择合适的分层变量需要深入了解研究对象,使得分层后各层群体差异明显,且不当选择可能导致分层效果不明显或过多。
  • 层数和样本量的限制:分层过多可能导致每层样本量偏少,影响统计分析的有效性,尤其在样本总量有限时。
  • 实施复杂性:分层随机分组增加了实验设计和实施的复杂性。当分层层数很多时,大规模的实现通常费时费力,并且会带来分组表达式繁冗等缺点。

3.适用场景

使用分层随机分组实验设计需要满足以下条件:

  • 独立性:实验组和对照组必须是相互独立的,分层结果与实验策略的实施相互独立。
  • 存在分层差异:实验单元在某个协变量上有较为明显的差异。
  • 样本量要求:每一层下的实验组和对照组样本量应满足最小样本量要求,如果层内人数过少,缺乏某一组,则需重新划分层。

分层随机分组是一种有效的实验设计方法,旨在通过控制层内同质性和层间异质性来进一步保证同质性,提高实验结果的准确性和统计功效。需要注意的是,分组机制应当与评估方式对应,分层分组的实验设计在评估时采取分层评估分析。一个常见的误区是采用分层随机分组却采用常规的随机对照评估方式,这样会导致显著性计算错误。如下图左边是使用分层随机但采用完全随机的方式进行评估,会较为严重的高估方差,AA模拟中p值不再服从均匀分布,实验功效降低(但能控制第一类错误),而右边是使用分层评估方式,AA模拟中 <math xmlns="http://www.w3.org/1998/Math/MathML"> p p </math>p值表现为正常的均匀分布。

在每一层使用随机对照实验评估方式的基础上,我们可以采用Neyman方法计算每一层的指标差异和方差,并使用统合分析工具进行加权,从而获得整体效果的评估。这种方法也能够有效支持比率型指标的分层随机分组实验设计与评估。以下是其基本原理和实现过程。

1.分组机制

2.评估方式

Neyman方法计算方差与 <math xmlns="http://www.w3.org/1998/Math/MathML"> p p </math>p值

3.3.2 配对随机分组

配对随机分组是指通过将实验对象根据某些关键特征进行配对,每对中的一个对象被随机分配到实验组,另一个则进入对照组,以确保实验组和对照组在这些特征上的均衡性。此方法通过控制个体间的差异来进一步保证同质性,提高实验功效,特别适用于样本间存在显著异质性的研究。当样本量较少时,或者实验策略的触发因素不可控,受到外部环境因素(如地理位置、时间段等)影响时,配对可以尽可能控制实验组和对照组的外部环境因素相似,也能够保证其他关注特征尽可能同质,减少这些因素对于实验结论的影响。以下是关于配对随机分组的应用经验。

1.优点

配对随机分组的实验方式在许多方面表现出色,但也可能有一些局限性。我们详细总结了其优缺点,首先其优点很明显:

  • 控制个体差异,进一步保证同质性:通过配对相似的个体,配对随机分组能够有效控制个体差异,进一步保证实验组、对照组的同质性,提高实验结果的可信度。
  • 提高统计功效:在样本量有限的情况下,配对可以提高统计功效,使得实验更容易观察到显著效果。
  • 应对小样本量:在样本量较小的情况下,配对随机分组仍能有效地平衡组间特征。

2.局限性

  • 配对复杂性:找到合适的配对对象可能需要额外的时间和资源,尤其在样本特征复杂或数量庞大时。
  • 样本利用率降低:如果无法为某些对象找到合适的配对,这些对象可能无法被纳入实验,导致样本利用率降低。

3.适用场景

  • 个体差异显著的场景:当实验对象之间存在显著的个体差异时,配对随机分组有助于控制这些差异,保证同质性。
  • 样本量有限的场景:在样本量较小的研究中,配对可以提高实验的统计功效。
  • 外部环境影响大的场景:在实验结果可能受到外部因素(如地域差异)显著影响的情况下,配对有助于提高结果的内部有效性。
  • 复杂多因素干扰的场景:当涉及多个干扰因素时,配对可以通过对这些因素的匹配来提高实验设计的复杂性和精确性。

下面主要介绍配对随机分组的基本原理。

1.分组机制

2.评估方式

(2)比率型指标评估

从业务理解出发往往需要考虑比率型指标,例如实验组GMV完成率定义为 (实验组所有区域完成GMV)/(实验组所有区域GMV), 而不是实验组每个区域GMV完成率的平均值。针对配对随机分组实验下比率型指标评估的理论研究几乎没有,在此探讨部分我们通过AA模拟来保证方法的科学性。

Fisher方法

Neyman方法

在美团履约侧的实验场景中,许多策略(如调度优化等)的作用单元为区域粒度等较大的地理单元,且策略的触发因素受到外部环境的影响。这意味着无法保证触发策略的实验组、对照组区域的外部环境相似,这使实验设计面临很多独特的挑战,特别是在确保实验组和对照组的同质性方面。

1.实验粒度限制:由于一些策略的最小作用单元是区域,这限制了实验无法在更细粒度上(如订单)分流。而城市下的区域数量较少且策略的触发因素受到外部环境的影响时,随机分组难以保证触发策略的实验组、对照组同质。

2.其他影响因素:区域内的交通状况、订单密度等因素也可能在实验期间发生变化,进一步增加了实验组和对照组之间的异质性。

3.3.3 协变量自适应分组

在美团履约侧的实验场景下,调度等场景下样本量稀少与地域差异明显的现状使得随机对照实验下难以保证分组的同质性以及很难有效地检测出实验提升效果。受自身业务形态和空间维度限制,调度等算法的最小作用单元为区域,且通常情况下以区域组作为策略施加的单位,受限于策略的最小作用单元,在实验设计上只能考虑区域或区域组维度的分流,这就导致参与实验的样本量较少,在这样的中小样本场景下(样本量几十到几百),协变量自适应分组可以通过减小组间指标分布不平衡性,使得分组更同质,从而有效提升点估计的准确度,在保证同质性和提升统计功效等方面普遍优于经典的随机对照实验分组。

协变量自适应分组(Covariate-Adaptive Randomization)是一种在实验设计中用来进一步保证同质性的实验方式,旨在通过减小实验组和对照组之间重要协变量分布的不平衡性,使得分组更同质,来提高实验结果的准确性和可靠性。在随机对照试验中,协变量自适应分组通过序贯分配的方式,使得各组之间在关键协变量上的分布更加相似,减少了协变量对试验结果的混杂影响。下面是一些协变量自适应分组的应用经验。

1.优势

协变量自适应分组的优点在于它能:

  • 进一步保证同质性:通过平衡重要协变量,进一步保证了实验组对照组的同质性,使得分组更同质。
  • 提高统计功效:平衡协变量后,由于减少了组间差异,协变量自适应分组通常能够提高统计分析的功效。
  • 适用于小样本:在小样本场景下(如几十到几百个样本),协变量自适应分组能够显著提升同质性和估计精度。

2.局限性

  • 计算成本增加:相比于经典随机对照实验的分组方式,协变量自适应分组需要更多的计算时间。
  • 需要先验知识:需要对重要协变量有较好的理解和认知能力,以选择合适的协变量进行平衡。

3.适用场景

  • 个体差异显著的场景:在实验对象之间存在显著个体差异的情况下(如区域间地理差异等),协变量自适应分组可以有效平衡这些差异。通过在实验组和对照组之间平衡重要协变量,确保个体差异不会显著影响实验结果的解读。
  • 样本量有限的场景:在样本量较小的研究中,协变量自适应分组有助于提高实验的统计功效。小样本量可能导致组间协变量的不平衡,协变量自适应分组通过动态调整分组策略,确保在小样本条件下,实验组和对照组的协变量分布尽可能相似,从而提高结果的可靠性。

平衡协变量对于实施可靠A/B实验是极为重要的,可以有效地降低处理效应估计的偏差,而协变量自适应设计则是为实现这一目标最为常用的方法。在协变量自适应随机化过程中,往往以每一步最小化某特定的不平衡测度为目标,序贯地(Sequential)将实验个体逐个(或逐对)分为试验组和对照组,其中不平衡测度的选择包括但不限于协变量均值(Covariate Means)、马氏距离(Mahalanobis Distance)、离散化加权处理、核方法等。以下是其基本原理和实现过程。

1.不平衡测度的刻画标准

在这里之所以考虑马氏距离 (Mahalanobis Distance) 来定义不平衡度 Imb,是基于以下几点考量:

  • 形式简洁、计算成本低:马氏距离的计算相对简单,且符合统计学分析的直觉和业界常用评估指标的习惯。
  • 不受数据线性变换的影响:协变量之间的量纲差异可能会对不平衡性的衡量过程带来麻烦。马氏距离不受数据线性变换的影响,省略了数据预处理的必要性,使得计算更加简便和科学。
  • 优良的统计学性质:马氏距离具有减少估计处理效应方差的优良性质。在处理效应的估计中,马氏距离能够提供最优的渐进方差,使得实验结果更加可靠。

2.协变量自适应分配方式

在进行协变量自适应分组时,学业界主要以完全序贯分配和配对序贯分配作为协变量自适应设计的分配方式。协变量自适应分配的主要思想是,逐个或者逐对分配实验单元,其通过倾向于使不平衡测度差异最小来判断将实验单元分在实验组还是对照组,在分组过程中动态调整以确保实验组和对照组在关键协变量上的平衡。

(1)完全序贯分配

概率q通常选为0.85(也可0.75、0.9等等)。两种分配流程各有优劣,完全序贯分配的随机性更强,但很难保证分配到试验组和对照组的样本量相同,而配对序贯分配则可以用部分随机性换取试验组和对照组的样本量相同的结果。

协变量自适应分组通过协变量回归调整降低方差,在这个分组机制下的评估中,方差计算同经典随机对照实验中的CUPED方差削减技术,具体可参考经典随机对照实验部分,这里不再赘述。

下面我们介绍一个使用协变量自适应分组得到更为同质区域分组的案例,我们比较了某业务场景中完全随机分组和协变量自适应分组的多个指标情况。其中,CR代表完全随机分组,CAR-c,CAR-d,CAR-m分别代表使用平衡均值,平衡离散型协变量,平衡马氏距离的协变量自适应方法。表中结果显示,在相同的检验显著性水平为0.05下,协变量自适应设计下的各协变量的拒绝原假设概率更低,即更不易拒绝同质性检验,且能生成更为同质的分组,降低了分组后的组间差异均值和方差波动。

3.4 解决溢出效应难题的实验方式

在AB实验中,一个很重要的假设是SUTVA (Stable Unit Treatment Value Assumption,个体处理稳定性假设),即实验中每个实验参与单元的行为是相互独立的,然而实践中由于实验单元间的直接关联或者间接关联,参与AB实验的实验组与对照组之间可能并不独立,我们通常称这种实验组、对照组间的相互干扰影响为溢出效应。

溢出效应的存在往往会引发实验效果的估计偏差,进而损失实验结论的可信度。例如通信工具Skype电话测试提升通话质量策略时,由于实验组呼叫可以拨给实验组或对照组的用户,从而对照组用户使用Skype电话频率也会增加,因此实验组和对照组之间的差值会被低估。溢出效应难题仍是目前学界与业界的重点研究领域,现有的实验设计与解决方案主要有时间片轮转实验、聚类随机试验、双边实验以及随机饱和实验等。其中时间片轮转实验在美团的实验场景下已经落地应用,会在第四章中详细介绍,这里我们将分别重点介绍在美团履约侧实验场景下,如何通过区域溢入溢出效应模型以及随机饱和实验来解决溢出效应的问题。

3.4.1 区域溢入溢出效应模型

在美团履约的实际业务背景下,例如调度策略,由于混合调度下在分别在实验组和对照组的相邻区域可以召回相同骑手,导致实验组与对照组之间共享骑手运力资源,使得实验组和对照组区域单元的独立性假设难以满足。如何在总体效应中有效识别溢出效应,并将最为关心的直接效应分离出来,是互联网企业在双边(多边)市场背景下研究网络因果推断问题的关键技术难点。为此,我们通过与中国人民大学进行校企合作,引入了区域溢入溢出效应模型,在部分场景下解决了溢出效应问题。

在区域层面,我们建模刻画了目标变量在不同区域间流动规模与方向,以及量化变动幅度,引入了"溢出权重"、"溢出强度"、"溢入权重"与"溢入强度"四大指标。其中"溢出权重"主要基于对目标变量在不同区域间流动规模与方向的考量,通过计算各区域间目标变量的流动量和方向,构建出反映流动规模与方向的综合指标,直观展示目标变量在区域间的流动情况,为决策提供参考。而"溢出强度"侧重于衡量目标变量在某一区域内的变动幅度,通过计算某一时期内目标变量在该区域内的变化量,结合"溢出权重",得出反映变动幅度的量化指标,帮助研究者与决策者快速识别变动幅度较大的区域,进行针对性分析与应对。同样,"溢入权重"和"溢入强度"则反映与"溢出权重"和"溢出强度"相反方向的变动幅度。

区域溢入强度和区域溢出强度可以理解为周围不同组别区域对自身的影响强度,最简单的定义是周围不同组别的区域个数比例(比如某单元自身为实验组,周围为对照组的比例越大,认为影响越强)。但是这种定义没有考虑到周围区域的大小及单量规模,一般认为大区域对自身的影响会比小区域对自身的影响强。因此,我们结合溢入(溢出)运单量来设计溢入(溢出)强度的定义。

溢入强度与溢出强度的现实意义

参照下图,在某次实验中,对实验组区域施加正向激励的策略(如升级调度策略使实验组区域单和骑手更匹配,实验组单被骑手更好更快接起),则在全城运力和总订单量无显著变化的情况下,实验组区域存量订单快速被消耗,实验组区域骑手倾向于跨区接起地理层面相邻且没有正向激励策略的对照组的订单。

3.4.2 随机饱和实验

随机饱和实验(Randomized Saturation Design)源于两阶段随机实验(Two-staged Randomized Experiment)的理念。与传统的随机对照实验中仅有一个固定的实验组与对照组比例不同,随机饱和实验通过将样本划分为多个簇,在每个簇中设置不同的实验组与对照组比例。理论上,实验组比例较高的簇对对照组的溢出效应更强,从而可以通过分析不同簇内实验组、对照组的表现,检测出真实的实验效应和溢出效应。

随机饱和实验设计

非参数模型建模

3.5 拓展与展望

在随机对照实验的业务应用中,触发式分析具有重要作用。在某些特定业务场景中,实验组可能并未全部受到实验干预,导致直接比较实验组和对照组的策略效果时,结果可能被稀释,从而难以获得显著结论。这种情况通常是由于策略对全部实验单元施加时,但仅一部分实验单元被实际触发策略,并且哪些单元被触发通常由实验单元选择,实验设计者并不可控。

在策略触发的背景下,还会出现对照组的群体可能"偷偷"受到策略干预,或者实验组个体不遵守规则的场景,即依从者问题。如果感兴趣测试药物治疗对某项疾病治疗效果,随机对照实验考虑将病人随机分为实验组、对照组并且实验组病人推荐药物治疗以及对照组不吃药,实验组病人有可能没按要求吃药,以及对照组病人有可能"偷偷"吃药。此时可以采用CACE(Complier Average Causal Effect)估计与推断来评估服从干预群体的策略效果。

在降方差方面,CUPED 方法的协变量选取不仅限于实验前的协变量。在实验前不存在实验单元或实验前数据与实验后数据相关性较差的情况下,也可考虑使用实验中及实验后的协变量进行调整。在 CUPED 方法的基础上,学界和业界衍生出其他降方差的方法,如CUPAC、MLRATE、STATE等。

CUPAC和MLRATE都使用不受实验干预影响的协变量特征训练机器学习模型,以预测目标评估指标,并将预测值作为回归调整中的协变量进行降方差。MLRATE在回归调整中加入了干预变量和机器学习预测变量的交互项,并使用交叉拟合减小过拟合带来的偏差。STATE方法结合机器学习回归调整与 <math xmlns="http://www.w3.org/1998/Math/MathML"> t t </math>t分布,针对厚尾数据分布进一步提升降方差效果。我们通过线下模拟和实际数据验证发现,CUPAC和MLRATE能进一步减少约10%的方差,而STATE能降低接近50%的方差,但估计量会存在一定偏差。因此,在选择降方差方法时,建议根据具体场景验证后使用。

我们还尝试了一些其他实验方式以进一步保证同质性,未来也将考虑建设。重随机化 是一种实验设计方法,用于在实验分组之间实现更好的平衡,进而提高实验的功效。重随机化通过多次随机分配实验单元,直到在关键协变量上达到预设的平衡标准,例如实验组和对照组的差异小于一定阈值或同质性检验中的 <math xmlns="http://www.w3.org/1998/Math/MathML"> p p </math>p值大于一定阈值。这有助于确保实验组和对照组在重要特征上更加相似,从而减少混杂因素的影响。重随机化可以从两个方面提高实验功效:

  1. 改善组间平衡,降低实验结果的方差,使得在相同样本量下更容易检测到真实效应;
  2. 减少协变量不平衡,使实验组和对照组在关键特征上更相似,使结果更能反映策略的真实效果而非其他混杂因素。

在实践中,需要事先定义需要平衡的协变量及可接受的分流程度。当对分流均衡性要求严苛时,可能需要多次随机分流才能达到预期结果,增加了计算和时间成本。在实验设计阶段,应充分考虑这些因素,在结果准确性和计算成本之间找到最佳平衡,以确保实验的科学性和可行性。确保实验组和对照组的同质性是提高实验结果可靠性和有效性的关键步骤,通过合理设计和实施减少混杂因素的影响,能使实验结果更具可信度与推广性。

对于实验领域的溢出效应难题,我们当前主要考虑通过区域等地理单元以及订单单元之间的溢出机制建模来解决。未来,我们将进一步探索使用马尔科夫决策过程等方法解决无法物理隔离情况下分流溢出效应等难题。

参考资料

  • 1\] Deng et al. (2013):Deng et al. (2013), Improving the sensitivity of online controlled experiments by utilizing pre-experiment data, In proceedings of the 24th International Conference on World Wide Web, ACM, 123-132.

  • 3\] Population Average Effect(PAE):在整个目标人群中某种处理或干预的平均效果。

  • 5\] 部分假设:假设每个个体实验效果为常数(AA模拟情形下实验效果均为0,假设成立)。

| 关注「美团技术团队」微信公众号,在公众号菜单栏对话框回复【2024 年货】、【2023 年货】、【2023 年货】、【2022 年货】、【2021 年货】、【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明 "内容转载自美团技术团队"。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 [email protected] 申请授权。

相关推荐
恸流失5 小时前
DJango项目
后端·python·django
Mr Aokey7 小时前
Spring MVC参数绑定终极手册:单&多参/对象/集合/JSON/文件上传精讲
java·后端·spring
地藏Kelvin8 小时前
Spring Ai 从Demo到搭建套壳项目(二)实现deepseek+MCP client让高德生成昆明游玩4天攻略
人工智能·spring boot·后端
菠萝019 小时前
共识算法Raft系列(1)——什么是Raft?
c++·后端·算法·区块链·共识算法
长勺9 小时前
Spring中@Primary注解的作用与使用
java·后端·spring
小奏技术10 小时前
基于 Spring AI 和 MCP:用自然语言查询 RocketMQ 消息
后端·aigc·mcp
编程轨迹10 小时前
面试官:如何在 Java 中读取和解析 JSON 文件
后端
lanfufu10 小时前
记一次诡异的线上异常赋值排查:代码没错,结果不对
java·jvm·后端
编程轨迹10 小时前
如何在 Java 中实现 PDF 与 TIFF 格式互转
后端
编程轨迹10 小时前
面试官:你知道如何在 Java 中创建对话框吗
后端