AB实验的关键认知（十四）实验复盘与总结

---关注作者，送A/B实验实战工具包

很多团队做 AB 实验，往往止步于"看数据、定输赢、发全量"这三板斧。一旦决策完成，Jira 单一关，文档一扔，这个实验就算结束了。

这是一个巨大的误区。

在成熟的数据科学体系中，实验结束后的复盘（Post-Mortem）与总结，其价值甚至高于单次实验的涨跌。因为单次实验只能告诉你"当下"发生了什么，而深度的复盘能沉淀为"知识"，指导未来一年的增长方向。

今天我们站在白板前，聊聊一个满分的实验复盘应该包含哪些维度的深度思考。

1. 收益与成本的精确账本

老板只关心 ROI（投资回报率），但作为技术专家，我们需要把 ROI 拆解得更科学。

1.1 收益评估：不仅看显性，更看隐性

直接收益 (Direct Impact)

这是最基础的推算。我们需要基于实验组相对于对照组的平均处理效应 (Average Treatment Effect, ATE)，推算策略全量上线后的年化收益。

计算逻辑 ：ΔTotal=ΔPerUser×Total_Users\Delta_{Total} = \Delta_{PerUser} \times Total\_UsersΔTotal=ΔPerUser×Total_Users
注意：这里必须考虑新奇效应 (Novelty Effect) 的衰减。实验期间的 5% 提升，全量后往往会回落到 3% 甚至更低。

间接收益 (Indirect Impact)

很多策略（如减少广告位、优化UI美观度）在短期内可能拉低了 CTR 或收入，但提升了用户体验。

我们需要关注护栏指标 (Guardrail Metrics) 的正向变化，比如 App 崩溃率降低、页面加载速度提升、用户投诉率下降。这些是品牌资产的长期增值。

全局最优策略组 (Global Holdout Groups)

这是一个高阶玩法。为了避免"捡了芝麻丢了西瓜"，成熟的实验平台会维护一个全局对照组 (Global Control) 和 全局最优组 (Global Winner)。

痛点：单次实验往往只看 1-2 周，看不出长期副作用（如透支用户耐受度）。
机制：将每次实验胜出的策略叠加放入"全局最优组"，并保留一小部分用户（如 5%）长期不接受任何新策略。
价值：每季度对比一次这两个组，如果发现最优组反而跑输了，说明我们陷入了局部最优陷阱，或者策略之间存在负向的交互效应 (Interaction Effect)。

1.2 成本评估：流量也是一种货币

做实验是有成本的，除了显而易见的人力，还有被忽视的隐性成本。

流量机会成本 (Opportunity Cost of Traffic) ：
流量是有限的。当你把 50% 的流量给了一个低质量的实验，就意味着这 50% 的流量无法用于另一个可能带来巨大增长的实验。
- 优化方向 ：通过分层重叠实验 (Overlapping Layered Experiment) 架构，让流量在正交的层级间复用，最大化流量利用率。
计算资源成本 ：
Spark/Flink 任务跑一天是要烧钱的。如果一个实验只为了看一个微小的按钮改动，却拉取了全量用户 30 天的行为日志进行归因，这就是资源浪费。
人力与时间 ：
从设计、开发、埋点到分析，整个链路如果耗时 2 周，而策略本身只带来了 0.1% 的提升，这个实验的 ROI 就是负的。

2. 失败经验的资产化

在 Microsoft 和 Google 的公开数据中，只有约 1/3 的实验能产生预期的正向效果。在高度优化的成熟产品中，这个比例甚至低于 10%。

2.1 重新定义"失败"

实验结果不显著，或者显著负向，不是"失败"，而是证伪 (Falsification)。

策略设计不足：是假设本身错了？还是控制变量没做好？
执行过程偏差 ：是否存在 SRM (Sample Ratio Mismatch)？是否存在埋点丢失？
数据分析误区：是否犯了多重检验问题？是否被离群值（Outliers）干扰？

2.2 排除错误假设也是成功

如果一个实验证明了"降价 10% 并不能带来销量提升"，这价值千金。它阻止了业务部门盲目烧钱。

务必牢记：测试的本质是获取知识 (Knowledge Acquisition)，而不仅仅是获取收入。

3. 深度归因：寻找平均值背后的真相

实验结束，不要只看一个总体的 P-value。真正的高手会追问以下问题，寻找新的增长点。

3.1 异质性处理效应 (Heterogeneous Treatment Effect, HTE)

问题：每个用户的表现都一样吗？
痛点：总体 ATE 不显著，可能掩盖了局部群体的巨大差异。
分析：

分群分析 (Segmentation)：新老用户、高低活用户、不同设备机型，对策略的反应可能截然不同。
辛普森悖论 (Simpson's Paradox)：必须警惕总体正向但各分层负向（或反之）的情况。
机会：如果策略对 IOS 用户显著正向，对 Android 用户无感，那么这个策略就应该只针对 IOS 上线，而不是全量。

3.2 边际效应与敏感度

问题：变量的程度如何影响结果？
分析：

如果实验了"满100减10"，效果不错。那么"满100减20"效果会翻倍吗？还是边际递减？
通过多臂老虎机 (Multi-Armed Bandit, MAB) 或多水平实验，绘制剂量-反应曲线 (Dose-Response Curve)，找到 ROI 最高的那个平衡点。

3.3 归因之外的变量

问题：结果是否揭示了其他干扰变量？
分析：

比如一个电商实验，转化率没变，但退货率飙升。这提示我们，用户决策质量下降了。
这会引出新的假设：我们需要在促进转化的同时，增加"冷静期"或更详细的商品描述。

4. 终极一步：实验归档与元分析

不要让实验报告躺在个人硬盘里。

4.1 结构化归档

必须将以下内容录入统一的实验知识库：

假设 (Hypothesis)：当初为什么觉得这个策略会行？
变量 (Variables)：动了什么？
结论 (Conclusion)：显著吗？提升多少？
洞察 (Insight)：为什么成/败？

4.2 元分析 (Meta-Analysis)

当积累了 100 个实验后，我们可以进行横向的元分析。

规律发现：过去一年，所有涉及"颜色调整"的实验，成功率只有 5%；而涉及"流程简化"的实验，成功率高达 60%。
指导意义：明年少搞颜色，多搞流程。

总结

实验复盘不是为了追责，而是为了建立一个贝叶斯更新 (Bayesian Update) 的过程。每一次实验，无论红绿，都是先验概率的一次更新，让我们对用户行为的理解无限逼近真相。

如果这篇文章帮你理清了思路，不妨点个关注，我会持续分享 AB 实验干货文章。