对于以双边市场为核心业务的公司来说，交易策略优化是一个重点方向，其内部的策略迭代与变更往往强依赖于AB实验；而策略多样性与复杂性也会为分析师带来实验相关的各种问题与挑战。本文将从货运行业的业务案例简单介绍交易策略项目中遇到的AB实验问题与解法。

一、交易知识介绍

1. 交易是什么

自人类文明诞生以来，交易行为就一直存在于人类行为之中，并延续至今。从原始时期的以物换物，到古代《清明上河图》展示的市集，再到如今的线上电商平台与服务贸易，人与人之间通过有效的交换行为促进了人类社会的不断前进。

在维基百科中，交易是"买卖双方对有价物品及服务进行互通有无的行为"。从该定义中，我们不难发现交易的三要素：

买卖双方：交易需要同时有买方与卖方的参与
有价：交易的商品自身必须有其价值，无论是有形的物品，还是无形的服务
互通有无：交易商品需要从一方转移到另一方

2.货运双边市场

让我们将视角聚焦到货运行业。货运行业是一个非常典型的双边市场，它既有每天产生各类需求的用户（需求方），也有可提供各类运输服务的司机（供给方）。

货运行业当前存在两套运营模式，第一种是传统的线下车队模式，第二种是线上交易模式。在车队模式中，买家需要前往线下车队，在不同的线路中选择自己需要的服务并交易；而随着互联网的发展，越来越多的用户会更青睐于线上交易模式，在方便的同时也省去了各种沟通成本。

作为一家主要从事同城、跨城货运与物流服务的公司，货拉拉搭建了可供买方与卖方持续交易的货运平台，每天都可满足数百万买家的需求，也让司机们收获了提供服务后的利益。

但是随着平台的成长与供需双方数量的增加，买方与卖方在货运市场中的诉求也不尽相同。作为需求方，用户在面对形形色色的供给方时，希望能选取服务质量高、价格低廉的司机；而作为供给方，司机更希望挑选钱多事少的订单。面对双方不同的诉求，如何让双方都能满意也成了作为第三方的货运平台需要解决的问题。

3.货拉拉交易策略与AB实验

在如今的互联网公司中，AB实验已经成了评估策略优劣的主流方法，它是一种基于假设检验统计思想的随机测试方法，常用于网站/APP优化、广告投放、产品功能改进等领域。在AB实验中，实验对象被随机分为两组（A组和B组），并分别接受不同的干预。通过分析不同分组的数据，可以确定哪种处理或策略更有效。

为了提升交易效率并满足买卖双方的不同诉求，货拉拉通过交易策略项目将交易环节进行拆解，并针对不同的环节进行优化。若一个新策略上线，大家第一个会问的问题一定是"策略是否有效"。为了回答好这个问题，我们就需要利用AB实验。

AB实验可以帮助业务方与分析师解决许多收益评估的问题，但是在货运双边市场复杂的场景下，一个缺乏设计科学性的AB实验方案可能会为分析带来额外的问题，这些问题不仅会增加分析师的分析难度，有时甚至还会影响市场供需的平衡性。如何解决这些问题就成了数据科学团队所面临的问题。

面对上述挑战，货拉拉数据科学团队通过提升自身专业度，设计了一系列富含科学性的实验方案。下文将会通过若干实际案例为大家逐一介绍问题所对应的业务场景，以及数据科学团队的解决方案。

二、交易策略AB实验中遇到的挑战

注：由于数据敏感性，此处实验数据已经过处理，不等于实际值

1. 实验分流原则

------为什么实验指标有差异，但大盘指标没变？是不是数据出错了？

1.1 业务问题与挑战

在2020年的"降取消"项目中，产研同学的策略迭代取得了重大进展，AB实验中实验组的取消率比对照组低5p.p. ，达到实验扩量的要求。照理说，如此大的指标变动足以对大盘数据产生一定影响，然而负责日常监控大盘指标的运营同学却提出了质疑，他们并没有在大盘指标中看到这一策略所产生的变化。这也带来了一系列对于实验方式与科学性的质疑。

1.2 SUTVA假设

在回答上述问题之前，先来介绍一下SUTVA假设。SUTVA假设（S table U nit T reatment V alues A ssumption）的全称是个体处理稳定性假设，它由如下两个假设共同组成。

假设分流对象之间是相互独立的，无互相干扰
个体的潜在结果、最终观察到的结果只与其自身有关

SUTVA假设是AB实验理论成立的基础，通常绝大多数AB实验都能满足SUTVA假设，然而这在双边市场中是个例外。

1.3 货运双边市场中的运力竞争

5%的学生高考加分可以进入更好的学校，对全部学生加分则不会有任何改变。

在双边市场中，若简单使用个体随机分流，会带来实验挤占的现象出现，下图模拟了订单ID随机分流下订单与司机的场景。某区域内同时拥有两笔来自不同实验分组的订单，优势组订单被推给了司机1、2、4，劣势组订单被推给了1、3、4，其中司机1为优质运力，此时优势组与劣势组共享相同运力（1和4）。

当优势组与司机1匹配时，劣势组便失去了更优运力的选择，只能转而与更差的运力（司机3）匹配。当分组内的订单频繁抢占共享运力时，不同分流对象之间出现互相干扰，则运力竞争问题便会出现，违背SUTVA假设。

1.4 时间片固定顺序轮播+隔天反转

在货运双边市场中，实验方会通过调整分流方式的办法解决个体分流实验所带来的运力竞争问题。当前主流的实验分流方式为时间片固定顺序轮播+隔天反转。该分流方式需要满足如下条件：

将一天24小时划分成若干均匀的时间片，同一时间片内的所有订单都会划分至给定的实验分组，消除不同类型订单所带来的运力共享与竞争现象；
在第二天反转时间片对应的实验分组类型，消除时间对干预的影响。

然而这一方式也并非完美无缺，时间片大小如何确定变成了一个令人头疼的问题。如果时间片过小，则运力竞争问题仍然无法被有效解决（当时间片长度趋于0，分流方式近似个体随机分流）；若时间片过大，则必须拉长实验周期，影响策略迭代效率。因此分析师需要在两者之间trade-off，并找到平衡点。

1.5 问题解决方案

在本文1.1部分所提到的"降取消"项目中，实验分流方式已经被设置为了时间片固定顺序轮播+隔天反转，但因为时间片大小仅10分钟，因此运力竞争问题仍无法完全被消除。在确定拉长实验周期不会影响功能迭代，并且也不会对其他实验带来影响后，业务方调整时间片大小为1天后重新做AB实验，最终确定了实验组取消率比对照组低2p.p. ，这也被视为该策略的最终收益。

针对这一问题，数据科学最终也产出了时间片管理规范，对于不同环节的实验，时间片大小的选取与回收周期需要严格依照管理规范来设置。

2.同质性保障

------实验组子类收益正向，总体反而负向，是不是数据出错了？

2.1 同质性与辛普森悖论

同质性的定义如下：假设在实验中没有干预，实验组观测指标与对照组观测指标的相似程度。

当不同的实验分组之间不同质时，无法将实验期间的指标差异作为实验收益。此时指标差异由实验效果ATE和实验前差异构成。

辛普森悖论的定义如下：在某个条件下的两组数据，分别讨论时都会满足某种性质，可是一旦合并考虑，却可能导致相反的结论。辛普森悖论的现象通常较为反直觉，下图以几何的形式展示了这一现象。若对每种颜色的点分别做线性回归，则得到的回归函数斜率均为正；但若对所有点做线性回归，则此时的回归函数斜率却为负。

出现辛普森悖论的原因在于不同颜色分组的划分不平衡，分组间天然就存在一定差异。在AB实验中，如果不同实验分组的同质性不能得到保证，则有时也会出现辛普森悖论现象。

2.2 业务问题与挑战

在2022年的某个用户实验便出现了辛普森悖论的现象，若仅看老用户或新用户，实验组的完单率指标均好于对照组；但若合在一起看，则发现总体实验组指标要比对照组差。当对用户群体的下单量分析时，发现实验分组并不同质，此时对照组老用户的下单量更多，这也导致了辛普森悖论现象的出现

用户类别	指标	实验组	对照组	完单率差异
老用户	下单量（万）	2	3	2.5p.p.
老用户	完单量（万）	0.85	1.2	2.5p.p.
老用户	完单率	42.50%	40.00%	2.5p.p.
新用户	下单量（万）	1	1.01	0.12p.p.
新用户	完单量（万）	0.12	0.12	0.12p.p.
新用户	完单率	12.00%	11.88%	0.12p.p.
总体	下单量（万）	3	4.01	-0.58p.p.
总体	完单量（万）	0.97	1.32	-0.58p.p.
总体	完单率	32.33%	32.92%	-0.58p.p.

2.3 实验前同质性保障

为了能在实验上线前就规避缺乏同质性所带来的一系列问题，货拉拉的AB实验平台上线了离线AA回溯功能，在实验上线前，利用分流对象的历史信息确定最优的随机种子。由于实验前指标与实验期间指标存在较大相关性，因此这一控制方法可以有效保证分流同质性。

2.4 实验后同质性校正

实验前同质性保障并不能解决一切问题，有时实验上线后，实验依然会出现不同质的现象。因此需要做事后同质性校正来规避这一现象。当前货拉拉有多种同质性校正方法。

已产品化技术

CUPED(C ontrolled-experiment U sing P re-E xperiment Data)是一种利用AB实验前的数据来缩减指标方差，进而提高实验灵敏度的方法，当前货拉拉已产品化该功能。当实验指标不同质时，CUPED可对实验指标进行矫正，并判断差异是否显著。

其它可用技术

当面对复杂情景时，数据科学团队还会利用其它可用的技术，例如倾向性得分匹配（PSM）、逆概率加权（IPTW）等。在4.2中的例子，我们便可使用逆概率加权的方法为下单量赋予权重，并计算得到实验真实收益为正，从而解决辛普森悖论问题。

是否完单	实验分组	用户类别	下单量（万）	原比例%	逆概率权重	加权后下单量%	加权后完单率	ATE
是	实验组	老用户	0.85	0.12	2.5	30.31%	33.75%	1.82p.p.
是	实验组	新用户	0.12	0.02	2.01	3.44%	33.75%	1.82p.p.
是	对照组	老用户	1.2	0.17	1.6667	28.53%	31.94%	1.82p.p.
是	对照组	新用户	0.12	0.02	1.9901	3.41%	31.94%	1.82p.p.

3. AB实验管理

------流量太少，实验太多，如何做AB实验管理？

3.1 业务问题与挑战

在当前竞争激烈的货运市场中，货拉拉每天的订单成交量上百万，日活的用户、司机数可达百万级，占据了重要的一席之地。在策略快速变更迭代的节奏下，每天也有许多策略需要通过AB实验的方式验证收益。这就需要合理的AB实验管理方案，保证实验之间不会产生交互影响，同时也能满足各个实验不同的需求。

在货拉拉，AB实验管理可用12个字概括：实验城市隔离，多时间片嵌套

3.2 实验城市隔离

对于绝大多数实验，使用实验城市隔离是第一优先的管理方式。若一个城市同时受到两个策略的影响，则这两个实验不可避免地会对彼此产生交互影响，对实验收益的计算产生干扰。因此针对不同产品功能，根据其对应的实验放量节奏，根据实验流量要求，按需选择"干净"的城市作为实验选城。

3.3 多时间片嵌套

对于订单相关的实验，若当前平台内实验数量过多，空白城市无法满足实验上线需求，则可考虑用多时间片嵌套的方案，使得实验之间彼此尽可能地隔离。

如上图所示，当前有3个实验需要上线，但可用的空白城市有限。由于三个策略所处环节不同，因此可以配置不同的时间片大小，不同时间片的长度需为整数倍关系。除此之外，时间片变更的时间也必须对齐，在某一时刻，所有的策略都会同时变更。

在多时间片嵌套的模式下，不同策略之间可以保证时间上的正交，将实验的交互影响最小化，同时也降低了分析师数据回收的难度。

三、总结

AB实验目前已成为主流的收益评估工具，但是在不同的业务场景中，AB实验也会遇到不同的问题。当前，货拉拉数据科学团队已总结出货运双边市场场景下的实验多方合作SOP与实验全流程，并针对过往所遇到的各类问题产出货运AB实验白皮书，以此更好地提升货运AB实验的科学性。

作为一个货运平台，货拉拉希望可以更好地优化交易策略，让订单与司机匹配的效率最大化，从而带给用户更好的服务体验，给司机带来更好的接单体验。一个科学的AB实验可以让我们以客观中立的视角看待数据，评估、选择出最好的策略，以满足货运双边市场中不同行业人群的需求。

双边交易策略实验挑战与实践