辛普森悖论

辛普森悖论

第一步:概念拆解

想象你在比较两个班级的考试成绩:

  • 第一天:实验组(1个学生考了90分),对照组(99个学生平均考了80分)
  • 第二天 :实验组(50个学生平均考了70分),对照组(50个学生平均考了60分)
    如果简单把两天的分数加起来算总平均:
  • 实验组:(90 + 70×50)/51 ≈ 70.4分
  • 对照组:(80×99 + 60×50)/149 ≈ 72.3分
    奇怪的事情发生了:明明实验组每天都比对照组考得好,但合起来看反而更差!

第二步:关键矛盾点

就像比较两个餐厅的满意度:

  • 工作日:高档餐厅(客人少但评分高),快餐店(客人多评分略低)
  • 周末 :两家客流量相同,高档餐厅评分仍更高
    但如果忽略时间维度,直接合并数据:
    快餐店会因为工作日的大量客流拉高总平均分,掩盖了高档餐厅每天的真实优势

第三步:统计学本质

辛普森悖论的核心是混淆变量(这里是"日期"):

  1. 第一天实验组只有1%流量,这部分用户可能是高质量种子用户(转化率2.3%极高)
  2. 第二天50%流量包含大量普通用户(转化率降至1.2%)
  3. 合并时,实验组数据被第二天的大量普通用户稀释,而对照组数据仍被第一天的高权重优质用户支撑

第四步:解决方案

避免错误的三步法:

  1. 分层比较:分别看第一天/第二天的结果(保持流量比例一致)
  2. 加权计算:按天数分配权重(如每天算50%贡献)
  3. 因果图分析:画流程图确认"日期"是否影响流量分配与转化率的关系

就像比较两种药物的疗效时,必须考虑试验阶段的重症/轻症患者比例变化,否则会得出"救人更多的药反而总死亡率更高"的荒谬结论。


内容类AB实验案例分析

看一个内容类AB实验 的例子,某资讯内容产品在列表包括AB两类内容,某实验做了A类内容的提权,也就是提升了A类内容的曝光占比,实验关心的核心指标是点击率

1)实验提升了整体的点击率吗?

2)通过数据推测实验为什么会出现A、B的点击率都下降的现象。

3)这种提升点击率的方法可能有什么潜在的问题?


第一步:用买菜比喻理解基础概念

想象菜市场有两个摊位:

  • 摊位A(精品蔬菜):每天摆10斤能卖9斤(点击率90%)
  • 摊位B(普通蔬菜):每天摆100斤能卖70斤(点击率70%)

某天市场经理决定:

  • 给摊位A多分配货架(从10斤→30斤)
  • 摊位B被迫减少到80斤

结果发现:

  • 摊位A销量变成25斤(点击率降到83%)
  • 摊位B销量变成55斤(点击率降到68%)
  • 总销售额却从79斤增加到80斤!

第二步:拆解三个问题的本质

问题1:整体点击率提升了吗?​

  • 对照组:A(9.2%) + B(7.4%) → 加权平均=(83+192)/(900+2600)=7.9%
  • 实验组:A(8.7%) + B(6.9%) → 加权平均=(234+55)/(2700+800)=8.3%
    确实提升了0.4%​,就像菜市场总销售额增加

问题2:为什么AB各自点击率都降?​

  • 对A内容​:曝光量从900→2700(3倍!)

    • 用户看到太多同类内容产生审美疲劳(如同连续吃3天精品菜也会腻)
    • 新曝光的用户可能不是A的理想受众(像把精品菜卖给只想买便宜菜的人)
  • 对B内容​:曝光量从2600→800(被挤压)

    • 用户注意力被更多A内容吸引(像顾客都被精品菜摊位的促销吸引)
    • 剩余曝光可能给了B的非目标用户(像只有匆匆路过的人才会买剩下的普通菜)

问题3:潜在问题是什么?​

  1. 数据假象​:就像菜市场总销售额增加,但:

    • 可能牺牲了老顾客体验(天天被迫看同类内容)
    • 新用户可能因内容单一而流失
  2. 生态破坏​:

    • 如果A是标题党内容,长期会降低内容质量
    • B类优质内容得不到曝光(如同菜市场再也买不到小众但健康的食材)
  3. 指标陷阱​:

    • 点击率提升但阅读时长可能下降
    • 用户满意度等隐性指标无法体现

第三步:用控制变量法看本质

如果把实验组数据按对照组比例还原:

  • 假设保持A:B=900:2600的比例
  • 实验组A应有289×(900/3500)=74.3点击(实际234,严重偏离)
  • 实验组B应有289×(2600/3500)=214.7点击(实际55,严重偏离)
    → 证明流量分配变化才是核心影响因素

第四步:给产品经理的建议

  1. 分层实验:对不同用户群体分别测试(如新用户/老用户)
  2. 动态加权:根据用户偏好实时调整AB比例
  3. 多指标监控:配合阅读深度、分享率等综合评估
  4. 内容质量检测:建立A类内容的"标题党指数"预警机制

就像调整菜市场摊位不能只看总销售额,还要考虑顾客复购率、摊位多样性、菜品质量等。这个案例生动展示了:​局部最优≠全局最优,需要警惕"提升一个指标,毁掉整个生态"的陷阱。