数据分析方法与框架

一、指标体系搭建

OSM 是一套目标 - 策略 - 度量的结构化思考框架，常和 AARRR 模型结合，用来搭建完整的业务指标体系。

要明白我们最终要达成的、清晰可衡量的业务结果

为了达成目标，拆解用户旅程后制定的行动方向

典型结合：用 AARRR 海盗模型 （漏斗模型）拆解用户全生命周期，作为策略落地的路径：

GMV = 流量 * 转化率/成交率 * 客单价 = DAU * CVR * 客单价（在一定周期内所有的订单的标价总额---卖了多少，卖的好不好）

DAU （一天内登陆或使用产品的去重用户数---当天有多少活人用户）

当日新增用户中，在次日再次打开 / 使用产品的用户占比。

一个新用户从注册到流失的整个生命周期内，为企业创造的累计总收入（或利润）

一个新用户从注册到流失，预计能给"快购"带来多少总收入?

每个活跃用户平均能带来的新用户数量 ，反映产品的自传播能力

核心含义 ：判断样本中观察到的差异 / 效应，是真实存在 ，还是仅由随机波动 / 抽样误差导致的统计方法。

判断逻辑 ：通过假设检验（如 t 检验、卡方检验）计算 p 值 ：
- 若 p < 显著性水平（通常 0.05）：拒绝 "无差异" 的原假设，认为差异具有统计显著性，即差异大概率不是偶然。
- 若 p ≥ 0.05：无法拒绝原假设，认为差异可能由随机因素导致，不具备统计显著性。
业务意义：在 A/B 测试、用户行为分析中，避免把 "偶然波动" 误判为 "策略有效"，保证决策的可靠性。

核心含义 ：在分组数据中呈现的趋势，在合并数据后会完全反转的统计现象。

典型场景 ：
1. 分组时：A 组的某项指标（如转化率、成功率）优于 B 组；
2. 合并后：整体数据却显示 B 组优于 A 组。
成因：混杂变量（Confounding Variable） 的存在，不同组的样本构成 / 权重差异极大，掩盖了真实的分组趋势。
经典例子 ：
- 某医院两种治疗方案：
  - 分组看：轻症患者中，方案 A 治愈率 > 方案 B；重症患者中，方案 A 治愈率 > 方案 B。
  - 合并看：方案 B 整体治愈率 > 方案 A。
  - 原因：方案 A 多用于重症患者（样本占比高、基础治愈率低），方案 B 多用于轻症患者（样本占比高、基础治愈率高），导致整体数据被样本结构误导。
业务警示 ：分析数据时必须关注分组结构和样本分布，避免被汇总数据误导，要拆解到合理的细分维度（如用户分层、渠道、场景）再下结论。