AB测试:新用户引导

实验背景:完成了产品 "Aha 时刻",也就是真正体验到产品核心价值,就是有很大概率留下来的用户。所以在APP新用户引入之初,就引导用户去发现产品的价值,有助于提升新用户的留存。不同的引导方式可能有不同的影响,于是设计新用户引导的AB实验来找一个最优解。

以娱乐直播间为例,产品的核心价值是提供情绪价值与社区归属感,新用户引导环节的设计应该尽可能让用户接触直播间并点关注,或者发言产生互动。

1.实验假设与核心定义

实验目标:对比3种不同引导方式(弹窗引导、分步引导、视频引导),找到最优方案,进而提升新用户留存率。

指标选择:核心激活率。核心激活用户指完成产品"Aha时刻"的用户,这里的AHa时刻指关注直播间+发送弹幕。

护栏指标(防止实验产生负面影响):APP崩溃率、引导立即关闭率、用户投诉率

实验假设:原假设H0:3种引导方式的核心激活率没有差异;备择假设H1:分步引导 / 视频引导的 7 日核心激活率显著高于传统弹窗引导(预期提升 15%)

2.实验分组与变量控制

组别 引导方式 具体内容
对照组(A 组) 传统弹窗引导 注册成功后一次性弹出全屏弹窗,展示 3 张滚动的静态图片,分别介绍三个核心功能:"关注直播间"、"发送弹幕"、"获得首次任务奖励",用户点击 "知道了" 关闭弹窗。
实验组 1(B 组) 分步引导 注册成功后分 3 步引导用户完成核心动作:1. 第一步:推荐 3 个热门直播间,引导用户点击进入;2. 第二步:进入语音房后,高亮"关注" 、"发言" 按钮,引导用户关注、发送 1 条弹幕;3. 第三步:提示用户完成引导可获得 100 金币奖励。
实验组 2(C 组) 短视频引导 注册成功后自动播放 15 秒短视频,展示 "如何关注直播间"、" 如何发送弹幕 "、"如何获得奖励",视频播放完毕后弹出 "立即体验" 按钮。

3.最小样本量计算

对于二分类指标(比例类的指标),最小样本量的公式是:

基线转化率p:当前弹窗引导的核心激活率为35%;

预期提升幅度:在原来的基础上提升15%,也就是从35%提升到40.25%;

绝对差值:40.25%-35%=5.25%;

显著性水平:0.05,95%置信度,通用标准; :1.96双侧检验的Z值;

统计功效1-:0.8,通用标准;:0.84:功效对应的Z值;

带入公式:最小样本量n = 2*(1.96+0.84)^2*0.35*(1-0.35)/ (0.0525)^2 ≈ 1294

最终样本量的确定:3组总样本量 1294*3 = 3882

4.回收结果

最终有效样本如下:

组别 总注册用户数(n) 7 日核心激活用户数(成功) 未激活用户数(失败) 实际 7 日核心激活率
对照组(A 组 - 弹窗引导) 1450 508 942 35.03%
实验组 1(B 组 - 分步引导) 1428 586 842 41.04%
实验组 2(C 组 - 视频引导) 1436 552 884 38.44%

卡方计算:

= 11.05

自由度计算:

df = (行数-1)*(列数-1)=2

p值计算:

根据卡方= 11.05,自由度df=2,使用 Excel 函数CHISQ.DIST.RT(11.05,2)计算得:p值≈0.004

显著性判断:

本实验 p 值 = 0.004 < 0.05

结论:拒绝原假设 H₀,三组的 7 日核心激活率存在统计显著差异

5.两两比较

整体卡方检验显著只能说明 "三组之间有差异",但不能说明 "哪两组之间有差异",需要进行两两比较,并使用 Bonferroni 校正避免假阳性爆炸。

校正后显著性水平:

共进行 3 次两两比较(A vs B、A vs C、B vs C),因此校正后的显著性水平:

/ 比较次数=0.05/3 ≈ 0.0167

两两比较计算:

A 组 vs B 组(弹窗 vs 分步引导)

组别 激活 未激活 合计
A 组 508 942 1450
B 组 586 842 1428

计算卡方值:χ²≈9.72,自由度 df=1,p 值≈0.0018

p=0.0018 < 0.0167 → 差异显著

分步引导组激活率比对照组高 6.01 个百分点,相对提升 17.1%

A 组 vs C 组(弹窗 vs 视频引导)

组别 激活 未激活 合计
A 组 508 942 1450
C 组 552 884 1436

计算卡方值:χ²≈3.89,自由度 df=1,p 值≈0.0486

p=0.0486 > 0.0167 → 差异不显著

视频引导组激活率比对照组高 3.41 个百分点,但未达到校正后的显著性水平

B 组 vs C 组(分步 vs 视频引导)

组别 激活 未激活 合计
B 组 586 842 1428
C 组 552 884 1436

计算卡方值:χ²≈1.98,自由度 df=1,p 值≈0.159

p=0.159 > 0.0167 → 差异不显著

6.统计结论与业务决策

统计结论

整体卡方检验 p=0.004<0.05,三组激活率存在显著差异

分步引导组(B 组)的激活率显著高于对照组(A 组)(p=0.0018<0.0167)

视频引导组(C 组)与对照组无显著差异(p=0.0486>0.0167)

分步引导组与视频引导组无显著差异(p=0.159>0.0167)

全量上线分步引导方式

核心依据:分步引导能显著提升 7 日核心激活率 17.1%,且次要指标(7 日留存率从 18% 提升至 26.2%)无负面影响

视频引导虽然有提升趋势,但未达到统计显著性,且开发和维护成本高于分步引导,暂不采纳。

相关推荐
紫昂张16 小时前
ABTest 检验方法汇总
ab测试
我滴老baby5 天前
Agent上线后不知道效果好不好?用Python搭建A/B测试+效果评估平台完整实战
开发语言·人工智能·python·ab测试
邂逅you2 个月前
数据分析方法与框架
数学建模·数据挖掘·数据分析·ab测试·aarrr
学不完的2 个月前
ZrLog 高可用架构监控部署指南(Prometheus + Grafana)
linux·运维·架构·负载均衡·grafana·prometheus·ab测试
汽车仪器仪表相关领域3 个月前
便携即战力,全域无短板:PL-1 袖珍记录仪核心重构与场景落地全解
功能测试·重构·汽车·压力测试·可用性测试·ab测试
Apifox3 个月前
【测试套件】当用户说“我只想跑 P0 用例”时,我们到底在说什么
单元测试·测试·ab测试
科技块儿3 个月前
【数据亲测】商业IP库在广告ab测试中的roi提升效果分析
网络·tcp/ip·ab测试
CZlNFGPr4 个月前
单相Boost PFC移相全桥整机Matlab Simulink仿真模型 2kwboost单相PFC
ab测试
测试_AI_一辰4 个月前
项目实践笔记 9:打卡/日报Agent项目Bug 修改与稳定性收口(v1.0)
android·开发语言·人工智能·功能测试·ai编程·ab测试