AB实验的关键认知(五)综合评估标准 OEC

---关注作者,送A/B实验实战工具包


在 AB 实验的决策会议上,最让人头秃、也最容易引发"撕逼"的场景往往是这样的:

  • 产品经理 满面红光地指着 PPT:"大家看,实验组的点击率 (CTR) 显著提升了 5%,P 值小于 0.05,策略非常成功,我建议全量上线!"
  • 运营同学 皱着眉头打断:"等一下,虽然点的人多了,但客单价 掉了 2% 啊。我算了一下,总的 GMV 其实根本没变,甚至还微跌了一点。"
  • 客服主管 在旁边补了一刀:"而且你们没发现吗?退货率还微涨了 0.5%,后台关于'货不对板'的投诉变多了。这个策略明显在误导用户,长期看是在透支品牌。"

面对这种**"有涨有跌、互相打架"**的指标现场,到底该听谁的?

是听职级最高的?听嗓门最大的?还是谁背的 KPI 重就听谁的?

如果实验决策依赖于这种"人为博弈",那么 AB 实验就失去了它的客观性,变成了一种政治工具。

这时候,我们需要一个绝对理性的"最高法院"来做终审判决。这个机制就是 OEC (Overall Evaluation Criterion) ,即综合评估标准

OEC 这个概念最早由微软在实验圣经《关键迭代》中提出。它不是某个单一的指标(如 GMV),而是一套将多个互相冲突的指标转化为单一决策信号的数学逻辑。它是实验决策从"玄学"走向"科学"的分水岭。


1. 初级阶段:加权得分法 (Weighted Score)

这是最容易落地、也是最直观的方法。它的核心逻辑非常简单:上帝归上帝,凯撒归凯撒,权重归老板。

既然指标之间有冲突,那我们就把业务关注的所有核心指标列出来,根据公司当前的战略重点,给每个指标分配一个"权重系数"。最后,将所有指标的实验收益加权求和,算出一个唯一的"综合得分"。

实战案例:电商大促推荐算法

假设我们正在测试一个新的首页推荐算法。实验跑了一周,数据如下:

  • 正向指标
    • GMV:涨了 5%。这是公司今年的核心 KPI,权重最高。
    • 点击率 (CTR):涨了 10%。这代表用户兴趣度,权重次之。
  • 负向指标
    • 退货率:涨了 20%。这是必须压制的体验指标,权重为负。

OEC 公式设计

我们可以构建如下的线性公式:
OEC = 0.6 × Lift(GMV) + 0.3 × Lift(CTR) − 0.1 × Lift(Return) \text{OEC} = 0.6 \times \text{Lift(GMV)} + 0.3 \times \text{Lift(CTR)} - 0.1 \times \text{Lift(Return)} OEC=0.6×Lift(GMV)+0.3×Lift(CTR)−0.1×Lift(Return)

  • Lift:指实验组相对于对照组的涨幅百分比(例如 +0.05)。
  • 权重逻辑
    • GMV 最重要,给 0.6。
    • CTR 是过程指标,给 0.3。
    • 退货率是负向的,给 -0.1(注意这里是减号,意味着退货率涨得越多,得分越低)。

决策计算
OEC = 0.6 × 0.05 + 0.3 × 0.10 − 0.1 × 0.20 \text{OEC} = 0.6 \times 0.05 + 0.3 \times 0.10 - 0.1 \times 0.20 OEC=0.6×0.05+0.3×0.10−0.1×0.20
OEC = 0.03 + 0.03 − 0.02 = 0.04 \text{OEC} = 0.03 + 0.03 - 0.02 = 0.04 OEC=0.03+0.03−0.02=0.04

最终判决

因为 OEC = 0.04 > 0 ,说明虽然退货率涨了,但 GMV 和点击率带来的正向收益足够大,完全覆盖了退货带来的负面损失。
结论:策略通过,建议上线。

示意图


2. 高级阶段:经济模型法 (Economic Model)

加权得分法虽然好用,但有一个明显的硬伤:权重是谁定的?

为什么 GMV 的权重是 0.6 而不是 0.5?为什么退货率的惩罚系数是 -0.1 而不是 -0.2?如果老板心情变了,权重是不是也要变?

为了消除这种"拍脑袋"的主观性,更科学、更硬核的方法是**"一切向钱看"**。

这就是经济模型法 。我们将所有的指标------无论是点击、关注,还是退货、投诉------都通过数据模型折算成真金白银(货币价值) 。这样,OEC 就变成了一个纯粹的财务公式:预期综合损益

实战案例:亚马逊邮件广告

场景:亚马逊营销团队想给用户多发一封"猜你喜欢"的营销邮件。

  • 短期收益:用户点了邮件里的商品,产生了直接购买收入。这是显而易见的。
  • 长期损失:用户觉得这封邮件是垃圾骚扰,点击了底部的"取消订阅"。这意味着我们永远失去了通过邮件联系该用户的机会,这个损失是隐形且巨大的。

OEC 公式设计

我们需要构建一个公式,来衡量"发这封邮件"到底赚不赚钱:
OEC = 短期营收 − ( 退订人数 × 用户生命周期价值损失 ) \text{OEC} = \text{短期营收} - (\text{退订人数} \times \text{用户生命周期价值损失}) OEC=短期营收−(退订人数×用户生命周期价值损失)

参数估算

  1. 短期营收 :假设实验数据显示,每多发一封邮件,平均能带来 $0.1 的新增 GMV。
  2. 长期损失 :通过历史数据分析(LTV 模型),我们算出一个活跃订阅用户的生命周期价值是 1000。如果他退订了,我们只能通过其他昂贵渠道(如广告)触达他,导致利润损失 **20**。

决策红线
OEC = 0.1 − ( 退订率 × 20 ) \text{OEC} = 0.1 - (\text{退订率} \times 20) OEC=0.1−(退订率×20)

只有当 OEC > 0 时,策略才成立。

这意味着,如果这封邮件导致超过 0.5% ( 0.1 / 20 0.1 / 20 0.1/20) 的用户退订,哪怕它带来了再多的短期 GMV,也是亏本买卖,必须下线。

价值

这种方法极其精准,它直接回答了"为了赚眼前的 1 块钱,我们愿意牺牲多少用户体验"这个灵魂拷问,让决策变得无可辩驳。


3. 起步阶段:启发式决策 (Heuristics)

看到这里,你可能会说:"我们团队刚起步,没有足够的数据去算 LTV,也没有复杂的归因模型,甚至连权重都还没吵清楚,怎么办?"

别急,在没有公式之前,我们可以使用一套简单的**"四象限决策法"。这是一套基于经验的启发式规则**,虽然粗糙,但足以应对 80% 的日常决策。

我们将所有关键指标分为三类状态:显著正向显著负向不显著(平)

场景 1:皆大欢喜 (Positive + Flat)

  • 现象:核心指标(如 GMV)显著涨了,其他指标(如退货率、延迟)没变化(统计不显著)。
  • 决策发布 (Launch)
  • 逻辑:这是最完美的实验,纯收益,无副作用。不需要犹豫,直接推全。

场景 2:有毒策略 (Negative + Flat)

  • 现象:核心指标显著跌了,或者护栏指标(如 App 崩溃率、卸载率)显著跌了,而其他指标没变化。
  • 决策不发布 (Don't Launch)
  • 逻辑:只要有显著的负向影响,且没有巨大的正向对冲,一律视为"有毒"。不要幻想"可能只是波动",保护用户体验是第一位的。

场景 3:无效折腾 (All Flat)

  • 现象:所有关键指标都是"平"的(统计不显著,置信区间跨过了 0)。
  • 决策不发布 (Don't Launch)
  • 逻辑
    • 成本视角:任何代码上线都有维护成本、技术债务和回滚风险。如果没有明确的收益,为什么要增加系统的复杂度?
    • 统计视角:如果全平,可能是样本量不足(Power 不够)。建议考虑增加流量重跑,或者直接承认该方向无效,换个方向尝试。

场景 4:艰难权衡 (Mixed)

  • 现象:有的指标显著涨(GMV +5%),有的指标显著跌(退货率 +2%)。
  • 决策进入"人工议事会"
  • 逻辑
    • 这是最纠结的时刻,也是最需要 OEC 的时刻。
    • 在没有公式前,先基于简单的**"止损原则"**:如果负向指标触碰了底线(如退货率 > 30%),直接否决。
    • 随着这种"纠结"案例的积累,你会慢慢摸索出"1% 的退货率到底值多少 GMV",从而进化到第 1 阶段(加权得分法)

总结

OEC 的本质,是将**"多维度的纠结"降维成"一维度的数值"**。它不是一蹴而就的,而是随着业务成熟度不断进化的:

  1. 起步期:用"四象限法"快速过滤明显的好坏策略,解决 80% 的简单决策。
  2. 发展期:引入"加权得分",让业务偏好数字化,解决指标打架的问题。
  3. 成熟期:构建"经济模型",让实验直接对财务报表负责,实现真正的 ROI 最大化。

没有完美的 OEC,只有最适合当前业务阶段的 OEC。


如果这篇文章帮你理清了思路,不妨点个关注,我会持续分享 AB 实验干货文章。

相关推荐
AI科技星1 天前
统一场论理论下理解物体在不同运动状态的本质
人工智能·线性代数·算法·机器学习·概率论
大江东去浪淘尽千古风流人物1 天前
【Embodied】具身智能基础模型发展
人工智能·机器学习·3d·机器人·概率论
木非哲2 天前
AB实验的关键认知(一)正交实验与互斥实验
概率论·abtest
Smilecoc3 天前
求极限中等价无穷小量的替换的理解
线性代数·概率论
jllllyuz4 天前
基于子集模拟的系统与静态可靠性分析及Matlab优化算法实现
算法·matlab·概率论
木非哲4 天前
AB实验的统计学内核(八):方差陷阱——从自由度到Delta Method
概率论·abtest
木非哲4 天前
AB实验的统计学内核(七):统计显著性 vs 业务显著性
概率论·abtest
Zevalin爱灰灰4 天前
概率论与数理统计 第二章——随机变量及其分布
概率论
Zevalin爱灰灰4 天前
概率论与数理统计 第一章——随机事件与概率
概率论