双边市场下的业务场景非常多样复杂。在许多情况下,业务方明确希望通过实验来评估收益和进行策略迭代。然而,受限于多样化的业务目标和复杂的双边市场环境,确定实验的分流方式变得相对困难。
因此,本文旨在明确 适用于公司当前普遍业务场景的实验方式 以及对应的理论说明。这将有助于我们在双边市场环境中有效地设计实验,评估收益,推动业务策略的持续优化。
一、AB实验背景知识介绍
1. AB实验原理
在业务迭代过程中,我们经常深入讨论的一个重要课题是相关性 与因果性 。相关性 指的是变量间的关联或连接程度,而因果性 则涉及一个变量对另一个变量产生的影响,即因果关系 。为了确定真正的因果关系,我们需要排除 其他可能影响结果的变量 ,确保我们观察到的影响是目标变量 对结果的因果作用。
AB实验是一种强有力的方法,本质上是通过控制单一变量,消除其他可能的影响因素,以便准确评估目标变量对结果的因果影响。这种实验设计可以为我们提供可靠的数据和洞察力,帮助我们深入了解业务情景。接下来,我们将通过具体案例来展示AB实验在确定因果关系方面的有效性和实用性。
2. AB实验案例
假设某游戏公司为了增加某款网络游戏的销量,增加了投放游戏广告这个动作。为了分析 该动作是否对用户购买游戏产生影响,公司做了如下思考和行动:
- 首先, 游戏广告可能直接影响玩家购买该游戏,这是一种干预(treatment)行为导致的结果。
- 然而 ,玩家之前玩过这款游戏 是一个可能的混淆因素(Confounders) ,它可能同时影响玩家观看 广告 (干预) 和 购买游戏 (结果) ,导致了额外的非因果相关性。
- 最后, 为了排除非因果相关性, 公司通过随机分配用户是否会看到广告(干预动作 ),切断干预动作 和混淆因素(Confounders) 之间的关系,那么就能够更准确的衡量 看广告 与 购买游戏之间 的因果效应;
通过随机分配用户是否会看到广告,分出实验组和对照组,进行一项AB实验,以深入研究广告投放对用户购买游戏的因果影响。下图是该案例的因果图解,可发现AB实验的随机分配游戏广告动作,切断了玩家前期玩过类似游戏 与看游戏广告的联系。
模型可表示为如下方程:
实验组 outcome1= 混淆变量(confounding) + 干预效果(treatment) + 偏差(bias)
对照组 outcome0= 混淆变量(confounding) + 偏差(bias)
干预效果带来的影响 Treatment = outcome1 - outcome0
这组方程描述了实验结构,其中有一个实验组和一个对照组:
-
实验组结果(outcome1) :
- 实验组观察到的结果受以下影响:
- 混淆变量(confounding):可能影响结果并存在于实验组中的因素。
- 干预效果(treatment):所测试的特定干预导致的影响。
- 偏差(bias):与真实效果偏离的任何系统性误差。
- 实验组观察到的结果受以下影响:
-
对照组结果(outcome0) :
- 对照组观察到的结果受以下影响:
- 混淆变量(confounding):可能影响结果并存在于对照组中的因素。
- 偏差(bias):与真实效果偏离的任何系统性误差。
- 对照组观察到的结果受以下影响:
-
干预效果带来的影响(Treatment) :
- 干预效果(Treatment)可通过计算实验组结果和对照组结果的差值来表示,即:Treatment= outcome1 - outcome0。
这里的前提是实验组和对照组是通过随机分配进行干预的,以确保实验的结果能够准确地反映出干预或治疗的真实效果。
二、不同场景下所需实验方式总览
AB实验分流是将参与实验的人群分为实验组和对照组,分别施加不同的干预(例如新功能、变化或其他干预措施),从而对比其效果,以验证假设、评估影响,或者做出最佳业务决策。
不同业务场景需要符合不同的分流原则,根据需要符合的分流原则确定分流方式,各分流方式有其对应的收益和风险。
综上不同的业务场景可能需要采用不同的分流方式,以适应特定业务需求和实验目标。
1.AB实验分流原则
1.1 体验一致性
1. 概念说明:
业务迭代过程中,部分场景下待实验的几种干预动作往往体验会相距较大 ;而不同体验下轮转会让用户/司机有明显感知,进而产生负面体验 ;不同用户体验不一样,也会产生歧视性问题。 1. 所以一些较为敏感的策略,如价格调整,激励变化等,往往需要顾及用户间的体验公平性和用户长期体验的一致性。
2. 场景举例:
a. 抢单大厅功能改版:同一司机在不同体验下轮转可能会让司机以为有bug 或 加大司机使用成本, 因此只能司机ID分流;
b. 定价策略:在同一个位置的两个用户, 定价不一样, 就会产生歧视性问题;
1.2 新奇效应可观测
- 概念说明:
新奇效应/冯·雷斯托夫效应指出特殊的东西比普通的东西更容易回忆;从业务上来看,某个功能与过去经验不同时,用户会产生因「经验不同」带来的新奇效应。该功能会更加吸引用户,加深用户的记忆;从指标上来看,某个功能/界面的改版,从短期指标 上来看可能有正收益 ,但长期指标 会收敛,甚至负向。 1. 所以在AB实验中,需要确保能够观测和考虑新奇效应对实验结果的影响,以便判断实验的真实效果。
- 场景举例:
抖音收藏icon改样式:收藏功能渗透率短期指标正向,但长期来看, 该指标随时间快速收敛情况;
1.3 实验组对照组同质可比
- 概念说明:
AB实验的原理就是控制单一变量,因此务必需要保证实验组和对照组是同质可比,才可以推断出实验组和对照组核心指标差异来自于策略,而不是两组群体本身的差别。
-
场景举例:
a. 附加费:附加费当前是使用起终点网格进行分群,样本量较小 ,所以实验组和对照组之间天然存在偏差,因此在实验复盘时需要一定纠偏;
b. 抢单大厅功能改版:司机端的实验往往是用司机ID 进行分流,但大小车的整体司机数量有限 ,即使整体上来看实验组对照组同质可比, 但细分维度 下,比如城市,可能实验组天然就是优于对照组;
c. 分单-PK:在不合理的分流方式 下,OA侧的实验 往往会出现实验组和对照组之间明显的运力竞争,而运力竞争也会导致两组在运力 层面上不同质可比。
1.4 实验周期可控
- 概念说明:
AB实验核心目的服务于业务决策和迭代, 因此往往AB实验的周期就决定了业务迭代的速度;因此需要实验周期整体可控。
- 场景举例
部分业务在迭代的时候不得不选择间隔天实验, 但隔天实验往往会拉长实验周期;经过测算,至少需要3-4周才能得到相对科学的结论;