数据分析相关面试题-A/B 测试 & 统计学部分

数据分析相关面试题汇总

目录

[A/B 测试](#A/B 测试)

[什么是 A/B 测试?](#什么是 A/B 测试?)

[为什么要做 A/B 测试?](#为什么要做 A/B 测试?)

[A/B 测试核心指标怎么选?](#A/B 测试核心指标怎么选?)

[完整 A/B 测试流程是什么?](#完整 A/B 测试流程是什么?)

统计学

[原假设 H0 和备择假设 H1 是什么?](#原假设 H0 和备择假设 H1 是什么?)

[p 值是什么?](#p 值是什么?)

[显著性水平 α 和功效 Power](#显著性水平 α 和功效 Power)

[一类错误 & 二类错误](#一类错误 & 二类错误)

什么是置信区间?

[中心极限定理 CLT](#中心极限定理 CLT)

不同指标对应什么检验?

样本量由什么决定?

实验没到样本量能停吗?

为什么必须随机分流?

什么是辛普森悖论?

[peeking 问题(多次偷看结果)](#peeking 问题(多次偷看结果))

实验前要检查什么?

显著就一定上线吗?


A/B 测试

什么是 A/B 测试?

将用户随机分成两组

  • A 组:对照组(原有版本)
  • B 组:实验组(新策略 / 新功能)通过统计假设检验判断指标差异是否显著,从而决定是否上线新版本。

为什么要做 A/B 测试?

  • 避免凭感觉决策
  • 量化新策略真实效果
  • 降低上线风险
  • 用数据证明 "有效"

A/B 测试核心指标怎么选?

  • 核心:转化率、点击率、留存、人均时长、收入
  • 辅助:用户结构、设备分布、地域分布原则:少而精,优先业务北极星指标

完整 A/B 测试流程是什么?

  1. 明确实验目的核心指标
  2. 计算所需样本量 & 实验天数
  3. 随机分流,保证两组用户同质
  4. 上线实验,埋点收集数据
  5. 数据清洗,检查分流均匀性
  6. 假设检验(t 检验 / 卡方)
  7. 根据 p 值、置信区间判断是否显著
  8. 给出结论:上线 / 不上线 / 延长实验

统计学

原假设 H0 和备择假设 H1 是什么?

  • H0:两组无差异
  • H1:两组有差异 只有拒绝 H0,才能说 B 版本更好。

p 值是什么?

在原假设成立(两组无差异)的情况下,观察到当前差异或更极端结果的概率。

  • p < 0.05 → 差异显著,认为策略有效
  • p > 0.05 → 差异不显著,不能认为有效

显著性水平 α 和功效 Power

  • α(一类错误):假阳性,没效果说有效果,常用 0.05
  • Power = 1−β:真有效果能检测出来的概率,常用 0.8

一类错误 & 二类错误

  • 一类(α):误判有效(假阳性)
  • 二类(β):漏判有效(假阴性)

什么是置信区间?

有 95% 把握认为真实提升幅度落在这个区间内。

中心极限定理 CLT

样本量足够大时,样本均值近似服从正态分布,因此可以用 t 检验。

不同指标对应什么检验?

  • 转化率 / 点击率(0/1 数据)→ 卡方检验 / 双比例 z 检验
  • 时长、分数、金额(连续值)→ 独立样本 t 检验
  • 数据不正态、异常值多→ Mann-Whitney U 检验(非参数)

样本量由什么决定?

  1. 基线转化率
  2. 最小可检测提升 MDE
  3. 显著性水平 α=0.05
  4. 统计功效 Power=0.8

期望提升越小,需要样本量越大。

实验没到样本量能停吗?

不能。样本不足 → 检验功效低 → 容易得出错误不显著结论。

为什么必须随机分流?

保证两组用户性别、年龄、活跃度、设备等分布一致,排除干扰变量。

什么是辛普森悖论?

整体看 B 更好,按维度拆分后 A 更好。原因:用户结构分布不均。避免:随机分流 + 分层分析 + 检查组间一致性。

peeking 问题(多次偷看结果)

频繁看结果会提高一类错误,导致假显著。解决:

  • 固定实验周期
  • 不中途停止
  • 使用多重检验校正

实验前要检查什么?

  • 分流是否均匀(用户结构一致)
  • 埋点是否正常
  • 有无污染、交叉影响
  • 有无系统波动(活动、节假日)

显著就一定上线吗?

不一定。还要看:

  • 提升幅度是否业务显著
  • 有无负向指标
  • 实现成本、风险
  • 长期影响
相关推荐
FPGA-ADDA2 小时前
第五篇(下):智能无线电与6G候选技术——从机器学习到通感一体化
人工智能·机器学习·信号处理·fpga·通信系统
郝学胜-神的一滴2 小时前
Qt6 + OpenGL 3.3 渲染环境搭建全指南:从空白窗口到专属渲染画布的优雅实现
数据结构·c++·线性代数·算法·系统架构·图形渲染
程序媛徐师姐2 小时前
Python基于机器学习的就业岗位推荐系统【附源码、文档说明】
python·机器学习·python机器学习·就业岗位推荐系统·python就业岗位推荐系统·python机器学习就业推荐·就业岗位推荐
Omics Pro2 小时前
空间组学下一代机器学习与深度学习
大数据·人工智能·深度学习·算法·机器学习·语言模型·自然语言处理
码界筑梦坊2 小时前
329-基于Python的交通流量数据可视化分析系统
开发语言·python·信息可视化·数据分析·django·vue·毕业设计
小肥米2 小时前
分块查找ASL公式推导,为什么是两个ASL之和
数据结构·算法
样例过了就是过了2 小时前
LeetCode热题100 最小栈
数据结构·c++·算法·leetcode
计算机安禾2 小时前
【数据结构与算法】第18篇:数组的压缩存储:对称矩阵、三角矩阵与稀疏矩阵
c语言·开发语言·数据结构·c++·线性代数·算法·矩阵
今儿敲了吗2 小时前
51| 八皇后
c++·笔记·学习·算法·深度优先