AB实验的关键认知(八)实验流量规划

---关注作者,送A/B实验实战工具包


很多刚接触 AB 实验的同学,认为"做实验"就是简单的三步走:

  1. 写代码。
  2. 在平台上点一下"切 50% 流量"。
  3. 等一周看报表。

如果你是这么想的,那你只看到了冰山一角。作为一名资深的数据科学家,我在审核实验方案时,80% 的精力都花在了一个问题上:流量规划 (Traffic Planning)

流量规划绝不仅仅是"切多少人"的问题。它是一个复杂的多维资源调度 难题,涉及空间(层域关系) 、**结构(分组比例)时间(实验周期)**的精密博弈。

一个糟糕的流量规划,会导致实验跑了半个月还没结论,或者因为流量冲突把大盘搞崩。今天,我们就在白板上把这个"隐形战场"画清楚。


1. 空间维度:给流量定坐标

在上一篇中我们讲了正交互斥 。在规划流量时,第一步就是确定你的实验在流量地图上的坐标。

1.1 确认实验层定位 (Layer Positioning)

你必须回答:我的实验会不会被别人的实验干扰?

  • 正交 (Orthogonal) :大部分实验默认是正交的。
    • 优势:流量复用。你做 UI 实验,他做算法实验,你们共享 100% 的流量,互不打扰。
    • 隐患交互效应 (Interaction Effect)。如果你的 UI 改动和他的算法改动"八字不合"(比如你把按钮删了,他的算法还在疯狂推荐这个按钮),就会产生 bug 或体验崩塌。
  • 互斥 (Mutex) :强冲突实验必须互斥。
    • 代价:流量独占。如果你的实验层只有 10% 的空闲流量,你就只能在这 10% 里玩。

深度洞察

不要盲目相信平台的"自动正交"。在规划重磅实验(如全站改版)时,我建议手动检查 同一时间内其他高优先级的实验,必要时申请独占层 (Holdout Layer),以排除一切干扰。


2. 结构维度:切几刀?怎么分?

确定了"在哪里跑",下一步是确定"怎么分"。这里涉及两个参数:组数 (Number of Groups)配比 (Split Ratio)

2.1 确认分组数量

很多 PM 喜欢"既要又要":

"我想测 A 方案、B 方案、C 方案,顺便再看下 A+B 的组合方案。"

数据科学家的坚持
如无必要,勿增实体。 实验组越多,对流量的贪婪程度呈指数级上升。

  • 如果你只有 10 万日活。
  • 2 个组(A/B):每组 5 万,可能 7 天显著。
  • 5 个组(A/B/C/D/E):每组 2 万,可能需要跑 1 个月 才能显著。
  • 后果:实验周期拖得太长,市场环境都变了,结论还有用吗?

2.2 确认各组配比

黄金法则:50/50 是效率之王。

在统计学上,当实验组和对照组样本量相等(p=0.5p=0.5p=0.5)时,方差最小,检测功效 (Power) 最高。

  • 什么时候用 90/10 (对照/实验)?
    • 灰度发布期:怕出 Bug,不敢放量。
  • 什么时候用 10/90 (对照/实验)?
    • 反转实验:全量上线前的最后确认,留一小撮人看老版本(Holdout Group)。
  • 其余时间 :请坚持 均分 (Even Split)。如果你有 3 个组,就 33%/33%/33%。不要搞出 20%/40%/40% 这种奇怪的比例,短板效应会拖死你的实验周期。

3. 时间维度:周期的艺术

算出了样本量 NNN,除以每天的流量 ddd,是不是就是实验天数?
Days=⌈N/d⌉ \text{Days} = \lceil N / d \rceil Days=⌈N/d⌉

大错特错。 这只是理论天数,实战中必须考虑周期性 (Seasonality)

3.1 完整的周循环 (Full Week Cycle)

互联网产品通常有极强的周效应

  • 工作日模式:用户行色匆匆,转化率低,客单价低。
  • 周末模式:用户有空闲逛,转化率高,客单价高。

如果你只跑了 3 天(周一到周三),你的结论是有偏的。你只了解了"工作日的用户",忽略了"周末的用户"。

铁律 :实验周期必须是 7 的倍数(1周、2周、3周)。即使你的样本量在第 3 天就够了,也请咬牙跑完 7 天。

3.2 预热期与适应期

别忘了我们在前几篇讲的新奇效应学习效应

在规划周期时,不要把前 1-2 天的数据纳入最终分析。

  • 建议:规划 9 天实验。
  • 执行:Day 1-2 (适应期,数据剔除) + Day 3-9 (正式分析期,完整一周)。

4. 终极博弈:不可能三角

作为实验的设计者,你必须在心中构建这样一个权衡模型。我们有三个互相拉扯的变量:

  1. 预期提升 (MDE):你想抓多细的收益?
  2. 流量/风险 (Traffic):你能给多少样本?
  3. 时间 (Time):你能等多久?

这构成了实验设计的不可能三角

场景 MDE 流量 时间 决策建议
颠覆性改版 这种实验最舒服,切 10% 流量跑一周即可。
精细化微调 必须梭哈全量。如果你只有 1% 的流量,想测 0.1% 的提升,是不可能的。
长尾小业务 流量不够,时间来凑。可能需要跑一个月。

实战心法

如果业务方又要测微小的提升(MDE 小),又不给流量(Traffic 小),还要求三天出结果(Time 短)。
请直接把教科书摔在他面前:这违背了统计学物理定律。

要么砍组数(增加单组流量),要么降低预期(调大 MDE),要么耐心等待(延长 Time)。没有魔法,只有取舍。


如果这篇文章帮你理清了思路,不妨点个关注,我会持续分享 AB 实验干货文章。

相关推荐
AI科技星1 天前
张祥前统一场论核心场方程的经典验证-基于电子与质子的求导溯源及力的精确计算
线性代数·算法·机器学习·矩阵·概率论
木非哲1 天前
AB实验高级必修课(四):逻辑回归的“马甲”、AUC的概率本质与阈值博弈
算法·机器学习·逻辑回归·abtest
Fleshy数模2 天前
从一条直线开始:线性回归的底层逻辑与实战
人工智能·机器学习·概率论
木非哲3 天前
AB实验高级必修课(二):从宏观叙事到微观侦查,透视方差分析与回归的本质
人工智能·数据挖掘·回归·abtest
seeInfinite3 天前
面试常见数学概率题
概率论
木非哲4 天前
AB实验高阶技法(四):方差分析 ANOVA —— 当实验组不再只有A和B
abtest
木非哲4 天前
AB实验必修课(一):线性回归的深度重构与稳定性评估
线性回归·概率论·abtest
大江东去浪淘尽千古风流人物6 天前
【LingBot-Depth】Masked Depth Modeling for Spatial Perception
人工智能·算法·机器学习·概率论
闪闪发亮的小星星7 天前
主旋参数定义
算法·机器学习·概率论
辰尘_星启10 天前
[最优控制]MPC模型预测控制
线性代数·机器学习·机器人·概率论·控制·现代控制