---关注作者,送A/B实验实战工具包
很多刚接触 AB 实验的同学,认为"做实验"就是简单的三步走:
- 写代码。
- 在平台上点一下"切 50% 流量"。
- 等一周看报表。
如果你是这么想的,那你只看到了冰山一角。作为一名资深的数据科学家,我在审核实验方案时,80% 的精力都花在了一个问题上:流量规划 (Traffic Planning)。
流量规划绝不仅仅是"切多少人"的问题。它是一个复杂的多维资源调度 难题,涉及空间(层域关系) 、**结构(分组比例)与时间(实验周期)**的精密博弈。
一个糟糕的流量规划,会导致实验跑了半个月还没结论,或者因为流量冲突把大盘搞崩。今天,我们就在白板上把这个"隐形战场"画清楚。
1. 空间维度:给流量定坐标
在上一篇中我们讲了正交 与互斥 。在规划流量时,第一步就是确定你的实验在流量地图上的坐标。
1.1 确认实验层定位 (Layer Positioning)
你必须回答:我的实验会不会被别人的实验干扰?
- 正交 (Orthogonal) :大部分实验默认是正交的。
- 优势:流量复用。你做 UI 实验,他做算法实验,你们共享 100% 的流量,互不打扰。
- 隐患 :交互效应 (Interaction Effect)。如果你的 UI 改动和他的算法改动"八字不合"(比如你把按钮删了,他的算法还在疯狂推荐这个按钮),就会产生 bug 或体验崩塌。
- 互斥 (Mutex) :强冲突实验必须互斥。
- 代价:流量独占。如果你的实验层只有 10% 的空闲流量,你就只能在这 10% 里玩。
深度洞察 :
不要盲目相信平台的"自动正交"。在规划重磅实验(如全站改版)时,我建议手动检查 同一时间内其他高优先级的实验,必要时申请独占层 (Holdout Layer),以排除一切干扰。
2. 结构维度:切几刀?怎么分?
确定了"在哪里跑",下一步是确定"怎么分"。这里涉及两个参数:组数 (Number of Groups) 和 配比 (Split Ratio)。
2.1 确认分组数量
很多 PM 喜欢"既要又要":
"我想测 A 方案、B 方案、C 方案,顺便再看下 A+B 的组合方案。"
数据科学家的坚持 :
如无必要,勿增实体。 实验组越多,对流量的贪婪程度呈指数级上升。
- 如果你只有 10 万日活。
- 2 个组(A/B):每组 5 万,可能 7 天显著。
- 5 个组(A/B/C/D/E):每组 2 万,可能需要跑 1 个月 才能显著。
- 后果:实验周期拖得太长,市场环境都变了,结论还有用吗?
2.2 确认各组配比
黄金法则:50/50 是效率之王。
在统计学上,当实验组和对照组样本量相等(p=0.5p=0.5p=0.5)时,方差最小,检测功效 (Power) 最高。
- 什么时候用 90/10 (对照/实验)?
- 灰度发布期:怕出 Bug,不敢放量。
- 什么时候用 10/90 (对照/实验)?
- 反转实验:全量上线前的最后确认,留一小撮人看老版本(Holdout Group)。
- 其余时间 :请坚持 均分 (Even Split)。如果你有 3 个组,就 33%/33%/33%。不要搞出 20%/40%/40% 这种奇怪的比例,短板效应会拖死你的实验周期。
3. 时间维度:周期的艺术
算出了样本量 NNN,除以每天的流量 ddd,是不是就是实验天数?
Days=⌈N/d⌉ \text{Days} = \lceil N / d \rceil Days=⌈N/d⌉
大错特错。 这只是理论天数,实战中必须考虑周期性 (Seasonality)。
3.1 完整的周循环 (Full Week Cycle)
互联网产品通常有极强的周效应:
- 工作日模式:用户行色匆匆,转化率低,客单价低。
- 周末模式:用户有空闲逛,转化率高,客单价高。
如果你只跑了 3 天(周一到周三),你的结论是有偏的。你只了解了"工作日的用户",忽略了"周末的用户"。
铁律 :实验周期必须是 7 的倍数(1周、2周、3周)。即使你的样本量在第 3 天就够了,也请咬牙跑完 7 天。
3.2 预热期与适应期
别忘了我们在前几篇讲的新奇效应 和学习效应 。
在规划周期时,不要把前 1-2 天的数据纳入最终分析。
- 建议:规划 9 天实验。
- 执行:Day 1-2 (适应期,数据剔除) + Day 3-9 (正式分析期,完整一周)。
4. 终极博弈:不可能三角
作为实验的设计者,你必须在心中构建这样一个权衡模型。我们有三个互相拉扯的变量:
- 预期提升 (MDE):你想抓多细的收益?
- 流量/风险 (Traffic):你能给多少样本?
- 时间 (Time):你能等多久?
这构成了实验设计的不可能三角:
| 场景 | MDE | 流量 | 时间 | 决策建议 |
|---|---|---|---|---|
| 颠覆性改版 | 大 | 小 | 短 | 这种实验最舒服,切 10% 流量跑一周即可。 |
| 精细化微调 | 小 | 大 | 短 | 必须梭哈全量。如果你只有 1% 的流量,想测 0.1% 的提升,是不可能的。 |
| 长尾小业务 | 小 | 小 | 长 | 流量不够,时间来凑。可能需要跑一个月。 |
实战心法 :
如果业务方又要测微小的提升(MDE 小),又不给流量(Traffic 小),还要求三天出结果(Time 短)。
请直接把教科书摔在他面前:这违背了统计学物理定律。
要么砍组数(增加单组流量),要么降低预期(调大 MDE),要么耐心等待(延长 Time)。没有魔法,只有取舍。
如果这篇文章帮你理清了思路,不妨点个关注,我会持续分享 AB 实验干货文章。
