【数据分析】02- A/B 测试:玩转假设检验、t 检验与卡方检验

一、背景:当"审判"成为科学

1.1 虚拟场景------法庭审判

想象这样一个场景:有一天,你在王国里担任"首席审判官"。你面前站着一位嫌疑人,有人指控他说"偷了国王珍贵的金冠"。但究竟是他干的,还是他是被冤枉的?你需要做出审判。

• 如果只是听到"民众都说他很可疑",就随便判有罪,也许冤枉了一个无辜的人;

• 如果因为证据不够充分,放任他走了,而真凶恰好就是他?那可怎么办?

这时候,作为审判官,你要收集证据(证人证言、现场线索),并进行理性分析。你不会轻易下结论,而是先假设他无罪(原假设),然后看证据有多强。若证据足够强大,说明在"嫌疑人无罪"的情况下,这么极端的指纹、目击等线索出现简直是"小概率事件",于是你认定他"极可能有罪",就推翻了无罪假设。

这便是**"假设检验"**的核心思想:我们总是先假设"没有差异""没有效应"(就像嫌疑人无罪),然后让数据"自己说话",看要不要推翻这个假设。


1.2 假设检验的现代发展

• 过去:统计学家费雪(Fisher)等人在 20 世纪初确立了这套"原假设 vs. 备择假设 + p 值 + 显著性水平"的理论框架。

• 现在:在大数据时代,我们依然需要这种方法来对数据做严谨推断,比如互联网产品的A/B 测试、医药领域的疗效分析、金融风控决策等等。

• 原因:不论数据多庞大,随机性和噪声总在,所以我们要有一把"判定差异是否超越随机"的尺子,这就是假设检验


二、假设检验:原理、角色与流程

2.1 原假设、备择假设

1. 原假设(Null Hypothesis

默认都是原假设,即罪人没有罪,需要p值低于阈值的时候我们才会推翻(拒绝)我们的原假设

• 嫌疑人无罪;

• 两个方案无差异;

• 新药无显著疗效......

一般总是表示"没有改变、没有差异、没有效果"。


2. 备择假设(Alternative Hypothesis

• 嫌疑人有罪;

• 两个方案的确有差异;

• 新药确实起了作用......


2.2 p 值:出现极端证据的概率

• p 值(p-value)是指:在原假设为真的前提下,获得我们这么极端(或更极端)观测结果的概率。

• 如果 p 值很小,比如 < 0.05(这就是显著性水平 的常用阈值 0.05),就意味着:

• "在没有差异的情况下,居然还能看到这么极端的数据,太小概率了吧?!"

• 所以我们倾向于说,"估计是原假设不对",即拒绝原假设

就是他是好人的情况下,出现这些不利(极端)证据,概率也太小了吧,所以我们认为他是坏人


2.3 Type I 与 Type II 错误

Type I 错误:错把一个无罪的人判了死刑(原假设其实对,但被我们拒绝)

Type II 错误:把真正的罪犯当好人放了(原假设其实不对,但我们没拒绝)

• 做实验或统计分析时,我们也要小心平衡:(Type I 错误率)和 (Type II 错误率),别因极度谨慎而漏掉真差异,也别因过度敏感而冤枉"无差异"的情况。


三、A/B 测试:让你的产品决策更像"法庭审判"

3.1 你在做的,正是"统计审判"!

互联网里,每当你想更换按钮颜色、重新设计界面布局,或者改进推荐算法时,却不确定是不是更好------就能用A/B 测试来模拟"法庭审判"流程:

  1. 原假设:新方案和老方案在关键指标(点击率、转化率等)上"无差异";

  2. 备择假设:新方案有更好的表现;

  3. 随机分配:把用户随机分成两组,一部分看 A,另一部分看 B;

  4. 观察结果:收集一段时间数据,看 B 组指标是否明显高于 A 组;

  5. 检验:若差异明显到"原假设难以成立",就说明新方案的确优于旧方案,推翻原假设。


3.2 常见陷阱

样本量过小:就好比证据太少,判案没把握;

多重测试:一次试验比较很多方案,就像同时审好几个案子,可能在某个案件里意外得到"极端证据";

外部干扰:如果不是随机分组、A/B 组用户画像差别太大,就像找了一群偏见法官,对审判结果会有偏颇。


四、t 检验:如何量化"均值上的差异"?

4.1 t 检验的来龙去脉

场景:我想知道"两个组的平均值"到底差多少,比如"男性与女性的平均身高差异",或者"A 组人群的日均观看时长 vs. B 组人群的日均观看时长"。

原理

• 分子是"两个平均值之间的差",分母是"这俩差值可能出现的标准误(综合了方差和样本量)"。

• 若这个 t 值很大,表明相对随机波动而言,均值差距太明显,p 值就会小。


4.2 适合场合

  1. 数据近似正态分布,或者样本量足够大(中心极限定理可以帮忙);

  2. 数值型指标,且你关心"平均值"本身的差异;

  3. 如果两组是独立样本,就用"独立样本 t 检验";若是一组人自己前后对比,则用"配对 t 检验"。


4.3 t 检验代码

案例分析

案例1:独立样本t检验

问题描述:比较男性和女性的平均身高是否存在显著差异。

python 复制代码
import numpy as np
from scipy import stats

# 生成模拟数据
np.random.seed(0)
male_heights = np.random.normal(175, 7, 100)  # 男性身高(cm)
female_heights = np.random.normal(165, 6, 100)  # 女性身高(cm)

# 进行独立样本t检验
t_stat, p_value = stats.ttest_ind(male_heights, female_heights)

print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')

# 结果解读
alpha = 0.05
if p_value < alpha:
    print("拒绝原假设,认为男性和女性的平均身高存在显著差异。")
else:
    print("无法拒绝原假设,认为男性和女性的平均身高无显著差异。")

输出:


案例2:独立样本t检验

问题描述: 在A/B测试中,评估新版本(B)是否显著提升了转化率。

python 复制代码
import numpy as np
from scipy import stats

# 生成模拟数据
np.random.seed(0)
control = np.random.binomial(1, 0.10, 1000)  # 控制组转化率10%
treatment = np.random.binomial(1, 0.12, 1000)  # 试验组转化率12%

# 计算转化率
control_rate = np.mean(control)
treatment_rate = np.mean(treatment)

print(f'控制组转化率: {control_rate:.2%}')
print(f'试验组转化率: {treatment_rate:.2%}')

# 进行独立样本t检验
t_stat, p_value = stats.ttest_ind(treatment, control)

print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')

# 结果解读
alpha = 0.05
if p_value < alpha:
    print("拒绝原假设,认为新版本显著提升了转化率。")
else:
    print("无法拒绝原假设,认为新版本未显著提升转化率。")

输出:


案例3:药物疗效的配对样本t检验

问题描述: 评估某药物在治疗前后患者的血压变化,判断药物是否有效。

python 复制代码
import numpy as np
from scipy import stats

# 生成模拟数据
np.random.seed(0)
pre_treatment_bp = np.random.normal(150, 10, 30)  # 治疗前血压
post_treatment_bp = pre_treatment_bp - np.random.normal(10, 5, 30)  # 治疗后血压

# 进行配对样本t检验
t_stat, p_value = stats.ttest_rel(post_treatment_bp, pre_treatment_bp)

print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')

# 结果解读
alpha = 0.05
if p_value < alpha:
    print("拒绝原假设,认为药物显著降低了血压。")
else:
    print("无法拒绝原假设,认为药物未显著降低血压。")

输出:


五、卡方检验:处理"分类变量"就靠它

5.1 当你的证据是"频数"而非"均值"

• 如果你拿到的是"买 or 不买"这样的分类标签,或者"一共投票给 A/B/C 的人数分别是多少",就不能简单地比较平均值。

• 这时要用卡方检验(Chi-Square),因为它专门对"观察到的频数"和"期望的频数"做比较。


5.2 原理简述


5.3 卡方检验代码

python 复制代码
import numpy as np
from scipy.stats import chi2_contingency

# 构建列联表
# 行:性别(男、女),列:购买(是、否)
data = np.array([[30, 10],
                 [20, 20]])

# 进行卡方检验
chi2, p, dof, expected = chi2_contingency(data)

print(f'卡方统计量: {chi2:.2f}')
print(f'p值: {p:.4f}')
print('期望频数:')
print(expected)

# 结果解读
alpha = 0.05
if p < alpha:
    print("拒绝原假设,认为性别与购买决策存在关联。")
else:
    print("无法拒绝原假设,认为性别与购买决策无关联。")

输出:


六、再回到法庭:如何让判决更高效?

  1. 注意样本量:别审太少证据就想定罪,也别没完没了地搜证耽误时间。

  2. 明确检验方法:是要比较数值平均?还是比较分类频数?选对 t 检验 or 卡方检验。

  3. 控制误差率: 设多少?怎么平衡漏判与冤判?

  4. 多重比较调整:若你要审好几件案子(或 A/B 测试好多种版本),要做相应方法调整,避免"捡到极端结果就说差异大"。


七、总结:只要有决策,就可能需要假设检验

从审判一个嫌疑人是否有罪,到互联网 A/B 测试中判断"新老方案孰优孰劣",再到科研里探讨"实验组与对照组"效果差异,我们都能看到假设检验 的身影。它让我们在随机干扰中保持理性,用t 检验 检查数值均值,用卡方检验 衡量分类差异,用A/B 测试来做商业产品优化。


文章小结

  1. 假设检验:就像法庭审案,"无罪"假设先行,数据若够极端就能推翻;

  2. A/B 测试:互联网"快速试验"神器;

  3. t 检验:比较"两组均值"时最常用;

  4. 卡方检验:用来判断分类/频数的差异或关联度。


希望通过这个"法庭审判"比喻 ,让你更好理解为何需要假设检验,以及如何把它用在各种实际场景上。本文若能带给你启发或快乐,请不吝在 一键三连(点赞、收藏、关注)并评论分享哦!让更多人知道,"统计思维"才是我们在复杂世界里做出理性决策的秘密武器。


参考阅读

• Fisher, R. A. (1925). Statistical Methods for Research Workers.

• Montgomery, D. C. (2017). Design and Analysis of Experiments.

• Pearson, K. (1900). On the criterion... (The seminal paper on Chi-Square test).

------ 全文完 ------

感谢阅读,期待你的点赞 + 关注 + 评论 + 收藏 + 转发,我们下期见!

相关推荐
mnwl12_039 分钟前
python轻量级框架-flask
开发语言·python·flask
张小特42 分钟前
flask项目中使用schedule定时任务案例
后端·python·flask
一张假钞1 小时前
调试Hadoop源代码
大数据·hadoop·eclipse
gf13211111 小时前
python_在钉钉群@人员发送消息
android·python·钉钉
B站计算机毕业设计超人1 小时前
计算机毕业设计PySpark+Hadoop+Hive机票预测 飞机票航班数据分析可视化大屏 航班预测系统 机票爬虫 飞机票推荐系统 大数据毕业设计
大数据·hadoop·爬虫·python·spark·课程设计·数据可视化
m0_512744642 小时前
重学SpringBoot3-整合 Elasticsearch 8.x (二)使用Repository
大数据·elasticsearch·jenkins
xianfianpan2 小时前
史上最简单open-webui安装方式!!!
python·深度学习·神经网络·ai
deephub2 小时前
Python时间序列分析:使用TSFresh进行自动化特征提取
python·机器学习·时间序列·特征提取
brilliantgby2 小时前
蓝桥杯3527阶乘的和 | 组合数学
python·蓝桥杯
取个名字真难呐3 小时前
Conv2d中groups=2时手动计算及pytorch源码验证
人工智能·pytorch·python