AB实验的关键认知(八)实验流量规划

---关注作者,送A/B实验实战工具包


很多刚接触 AB 实验的同学,认为"做实验"就是简单的三步走:

  1. 写代码。
  2. 在平台上点一下"切 50% 流量"。
  3. 等一周看报表。

如果你是这么想的,那你只看到了冰山一角。作为一名资深的数据科学家,我在审核实验方案时,80% 的精力都花在了一个问题上:流量规划 (Traffic Planning)

流量规划绝不仅仅是"切多少人"的问题。它是一个复杂的多维资源调度 难题,涉及空间(层域关系) 、**结构(分组比例)时间(实验周期)**的精密博弈。

一个糟糕的流量规划,会导致实验跑了半个月还没结论,或者因为流量冲突把大盘搞崩。今天,我们就在白板上把这个"隐形战场"画清楚。


1. 空间维度:给流量定坐标

在上一篇中我们讲了正交互斥 。在规划流量时,第一步就是确定你的实验在流量地图上的坐标。

1.1 确认实验层定位 (Layer Positioning)

你必须回答:我的实验会不会被别人的实验干扰?

  • 正交 (Orthogonal) :大部分实验默认是正交的。
    • 优势:流量复用。你做 UI 实验,他做算法实验,你们共享 100% 的流量,互不打扰。
    • 隐患交互效应 (Interaction Effect)。如果你的 UI 改动和他的算法改动"八字不合"(比如你把按钮删了,他的算法还在疯狂推荐这个按钮),就会产生 bug 或体验崩塌。
  • 互斥 (Mutex) :强冲突实验必须互斥。
    • 代价:流量独占。如果你的实验层只有 10% 的空闲流量,你就只能在这 10% 里玩。

深度洞察

不要盲目相信平台的"自动正交"。在规划重磅实验(如全站改版)时,我建议手动检查 同一时间内其他高优先级的实验,必要时申请独占层 (Holdout Layer),以排除一切干扰。


2. 结构维度:切几刀?怎么分?

确定了"在哪里跑",下一步是确定"怎么分"。这里涉及两个参数:组数 (Number of Groups)配比 (Split Ratio)

2.1 确认分组数量

很多 PM 喜欢"既要又要":

"我想测 A 方案、B 方案、C 方案,顺便再看下 A+B 的组合方案。"

数据科学家的坚持
如无必要,勿增实体。 实验组越多,对流量的贪婪程度呈指数级上升。

  • 如果你只有 10 万日活。
  • 2 个组(A/B):每组 5 万,可能 7 天显著。
  • 5 个组(A/B/C/D/E):每组 2 万,可能需要跑 1 个月 才能显著。
  • 后果:实验周期拖得太长,市场环境都变了,结论还有用吗?

2.2 确认各组配比

黄金法则:50/50 是效率之王。

在统计学上,当实验组和对照组样本量相等(p=0.5p=0.5p=0.5)时,方差最小,检测功效 (Power) 最高。

  • 什么时候用 90/10 (对照/实验)?
    • 灰度发布期:怕出 Bug,不敢放量。
  • 什么时候用 10/90 (对照/实验)?
    • 反转实验:全量上线前的最后确认,留一小撮人看老版本(Holdout Group)。
  • 其余时间 :请坚持 均分 (Even Split)。如果你有 3 个组,就 33%/33%/33%。不要搞出 20%/40%/40% 这种奇怪的比例,短板效应会拖死你的实验周期。

3. 时间维度:周期的艺术

算出了样本量 NNN,除以每天的流量 ddd,是不是就是实验天数?
Days=⌈N/d⌉ \text{Days} = \lceil N / d \rceil Days=⌈N/d⌉

大错特错。 这只是理论天数,实战中必须考虑周期性 (Seasonality)

3.1 完整的周循环 (Full Week Cycle)

互联网产品通常有极强的周效应

  • 工作日模式:用户行色匆匆,转化率低,客单价低。
  • 周末模式:用户有空闲逛,转化率高,客单价高。

如果你只跑了 3 天(周一到周三),你的结论是有偏的。你只了解了"工作日的用户",忽略了"周末的用户"。

铁律 :实验周期必须是 7 的倍数(1周、2周、3周)。即使你的样本量在第 3 天就够了,也请咬牙跑完 7 天。

3.2 预热期与适应期

别忘了我们在前几篇讲的新奇效应学习效应

在规划周期时,不要把前 1-2 天的数据纳入最终分析。

  • 建议:规划 9 天实验。
  • 执行:Day 1-2 (适应期,数据剔除) + Day 3-9 (正式分析期,完整一周)。

4. 终极博弈:不可能三角

作为实验的设计者,你必须在心中构建这样一个权衡模型。我们有三个互相拉扯的变量:

  1. 预期提升 (MDE):你想抓多细的收益?
  2. 流量/风险 (Traffic):你能给多少样本?
  3. 时间 (Time):你能等多久?

这构成了实验设计的不可能三角

场景 MDE 流量 时间 决策建议
颠覆性改版 这种实验最舒服,切 10% 流量跑一周即可。
精细化微调 必须梭哈全量。如果你只有 1% 的流量,想测 0.1% 的提升,是不可能的。
长尾小业务 流量不够,时间来凑。可能需要跑一个月。

实战心法

如果业务方又要测微小的提升(MDE 小),又不给流量(Traffic 小),还要求三天出结果(Time 短)。
请直接把教科书摔在他面前:这违背了统计学物理定律。

要么砍组数(增加单组流量),要么降低预期(调大 MDE),要么耐心等待(延长 Time)。没有魔法,只有取舍。


如果这篇文章帮你理清了思路,不妨点个关注,我会持续分享 AB 实验干货文章。

相关推荐
我家大宝最可爱4 小时前
强化学习基础-重要性采样
算法·机器学习·概率论
木非哲18 小时前
AB实验的关键认知(六)分流单元与分析单元
概率论·abtest
郝学胜-神的一滴1 天前
机器学习特征选择:深入理解移除低方差特征与sklearn的VarianceThreshold
开发语言·人工智能·python·机器学习·概率论·sklearn
木非哲1 天前
AB实验的关键认知(五)综合评估标准 OEC
概率论·abtest
AI科技星2 天前
统一场论理论下理解物体在不同运动状态的本质
人工智能·线性代数·算法·机器学习·概率论
大江东去浪淘尽千古风流人物2 天前
【Embodied】具身智能基础模型发展
人工智能·机器学习·3d·机器人·概率论
木非哲3 天前
AB实验的关键认知(一)正交实验与互斥实验
概率论·abtest
Smilecoc4 天前
求极限中等价无穷小量的替换的理解
线性代数·概率论
jllllyuz5 天前
基于子集模拟的系统与静态可靠性分析及Matlab优化算法实现
算法·matlab·概率论