AB实验的关键认知（八）实验流量规划

---关注作者，送A/B实验实战工具包

很多刚接触 AB 实验的同学，认为"做实验"就是简单的三步走：

如果你是这么想的，那你只看到了冰山一角。作为一名资深的数据科学家，我在审核实验方案时，80% 的精力都花在了一个问题上：流量规划 (Traffic Planning)。

流量规划绝不仅仅是"切多少人"的问题。它是一个复杂的多维资源调度 难题，涉及空间（层域关系） 、**结构（分组比例）与时间（实验周期）**的精密博弈。

一个糟糕的流量规划，会导致实验跑了半个月还没结论，或者因为流量冲突把大盘搞崩。今天，我们就在白板上把这个"隐形战场"画清楚。

在上一篇中我们讲了正交与互斥。在规划流量时，第一步就是确定你的实验在流量地图上的坐标。

你必须回答：我的实验会不会被别人的实验干扰？

正交 (Orthogonal) ：大部分实验默认是正交的。
- 优势：流量复用。你做 UI 实验，他做算法实验，你们共享 100% 的流量，互不打扰。
- 隐患：交互效应 (Interaction Effect)。如果你的 UI 改动和他的算法改动"八字不合"（比如你把按钮删了，他的算法还在疯狂推荐这个按钮），就会产生 bug 或体验崩塌。
互斥 (Mutex) ：强冲突实验必须互斥。
- 代价：流量独占。如果你的实验层只有 10% 的空闲流量，你就只能在这 10% 里玩。

深度洞察 ：

不要盲目相信平台的"自动正交"。在规划重磅实验（如全站改版）时，我建议手动检查 同一时间内其他高优先级的实验，必要时申请独占层 (Holdout Layer)，以排除一切干扰。

确定了"在哪里跑"，下一步是确定"怎么分"。这里涉及两个参数：组数 (Number of Groups) 和 配比 (Split Ratio)。

很多 PM 喜欢"既要又要"：

"我想测 A 方案、B 方案、C 方案，顺便再看下 A+B 的组合方案。"

数据科学家的坚持 ：
如无必要，勿增实体。 实验组越多，对流量的贪婪程度呈指数级上升。

黄金法则：50/50 是效率之王。

在统计学上，当实验组和对照组样本量相等（p=0.5p=0.5p=0.5）时，方差最小，检测功效 (Power) 最高。

什么时候用 90/10 (对照/实验)？
- 灰度发布期：怕出 Bug，不敢放量。
什么时候用 10/90 (对照/实验)？
- 反转实验：全量上线前的最后确认，留一小撮人看老版本（Holdout Group）。
其余时间 ：请坚持 均分 (Even Split)。如果你有 3 个组，就 33%/33%/33%。不要搞出 20%/40%/40% 这种奇怪的比例，短板效应会拖死你的实验周期。

算出了样本量 NNN，除以每天的流量 ddd，是不是就是实验天数？
Days=⌈N/d⌉ \text{Days} = \lceil N / d \rceil Days=⌈N/d⌉

大错特错。 这只是理论天数，实战中必须考虑周期性 (Seasonality)。

互联网产品通常有极强的周效应：

如果你只跑了 3 天（周一到周三），你的结论是有偏的。你只了解了"工作日的用户"，忽略了"周末的用户"。

铁律：实验周期必须是 7 的倍数（1周、2周、3周）。即使你的样本量在第 3 天就够了，也请咬牙跑完 7 天。

别忘了我们在前几篇讲的新奇效应 和学习效应 。

在规划周期时，不要把前 1-2 天的数据纳入最终分析。

作为实验的设计者，你必须在心中构建这样一个权衡模型。我们有三个互相拉扯的变量：

这构成了实验设计的不可能三角：

实战心法 ：

如果业务方又要测微小的提升（MDE 小），又不给流量（Traffic 小），还要求三天出结果（Time 短）。
请直接把教科书摔在他面前：这违背了统计学物理定律。

要么砍组数（增加单组流量），要么降低预期（调大 MDE），要么耐心等待（延长 Time）。没有魔法，只有取舍。

如果这篇文章帮你理清了思路，不妨点个关注，我会持续分享 AB 实验干货文章。