本章学习目标:
- 理解均值、中位数、标准差、分位数的含义和适用场景
- 掌握均值 vs 中位数:什么时候用哪个、数据偏斜意味着什么
- 理解标准差如何衡量数据波动和风险
- 学会用分位数理解数据分布的全貌
- 重点是解读:这些数字告诉我们什么业务故事
- 不需要记住计算公式,只需要知道"怎么理解、怎么用"
一、什么是描述性统计?
1.1 核心定义
描述性统计是用几个关键数字概括和描述一个数据集的整体特征。它回答的核心问题是:
| 问题 | 对应指标 |
|---|---|
| "典型值是多少?" | 均值、中位数、众数 |
| "数据分散还是集中?" | 标准差、极差、方差 |
| "数据分布在什么范围?" | 最小值、最大值、分位数 |
| "数据是对称还是偏斜?" | 偏度 |
1.2 为什么描述性统计如此重要?
想象一下,别人给了你一份10万条销售数据的Excel文件。你不能一条一条地看,你需要用几个数字快速了解:
- 销售额大概在什么范围?(从几元 到百万?)
- 典型的销售额是多少?(100元 还是1000元?)
- 销售额波动大吗?(每天都差不多,还是有大单?)
描述性统计就是给你这几个关键数字,让你在几秒钟内了解数据的全貌。
1.3 一个生活化的例子:了解一个班级的成绩
假设你是一个班级的新老师,你需要快速了解班级的整体学习水平。你拿到了全班50个学生的成绩:
| 统计指标 | 计算结果 | 解读 |
|---|---|---|
| 均值 | 80分 | 平均成绩不错 |
| 中位数 | 85分 | 一半以上学生超过85分 |
| 标准差 | 15分 | 成绩波动较大 |
| 最小值 | 40分 | 有个别学生成绩偏低 |
| 最大值 | 100分 | 有满分学生 |
| 25%分位数 | 70分 | 前25%的学生成绩低于70分 |
通过这些数字,你不需要一个一个地看50个成绩,就已经对班级的整体情况有了清晰的了解。
二、均值(Mean)------ 最常用的"平均值"
2.1 它是什么?
均值是所有数值加起来,除以数值的个数。它是最常用的"平均值"。
计算公式:均值 = (总数1 + 总数2 + ... + 总数n) / n
2.2 一个直观的例子
5个人的月薪:
- 员工A:5,000元
- 员工B:6,000元
- 员工C:5,500元
- 员工D:7,000元
- 员工E:50,000元(老板)
计算 :(5000 + 6000 + 5500 + 7000 + 50000) / 5 = 14,700元
2.3 均值的优点和缺点
| 优点 | 缺点 |
|---|---|
| 计算简单,容易理解 | 对极端值(异常值)非常敏感 |
| 包含了所有数据的信息 | 数据偏斜时,均值不能代表"典型值" |
| 数学性质好,适合进一步计算 | 会被一个极大值拉高,或被极小值拉低 |
2.4 什么时候用均值?
| 适用场景 | 特征 | 举例 |
|---|---|---|
| 数据对称分布 | 没有极端值 | 成年男性身高(大多数在165-185之间) |
| 需要进一步统计分析 | 后续计算需要 | 回归分析、假设检验 |
| 数据量足够大 | 异常值影响被稀释 | 大样本调查 |
如何向AI描述:
"计算销售额的平均值"
"求一下年龄列的均值"
三、中位数(Median)------ 更能代表"典型值"
3.1 它是什么?
中位数是将所有数值从小到大排序后,位于正中间的那个数。它代表的是"有一半数据大于它,一半数据小于它"。
如果数据个数是奇数,中位数就是中间那个数;如果是偶数,中位数是中间两个数的平均值。
3.2 一个直观的例子
还是那5个人的月薪,排序后:
5,000、5,500、6,000、7,000、50,000
中位数 = 6,000元(排在中间的第三个数)
关键洞察:中位数6,000元比均值14,700元更能代表"普通员工"的薪资水平。
3.3 中位数的优点和缺点
| 优点 | 缺点 |
|---|---|
| 不受极端值影响,非常稳健 | 没有充分利用所有数据的信息 |
| 更能代表"典型值" | 数学性质不如均值好 |
| 适合偏态分布 | 某些统计方法需要均值而非中位数 |
3.4 什么时候用中位数?
| 适用场景 | 特征 | 举例 |
|---|---|---|
| 数据偏态分布 | 存在极端值 | 收入、房价、公司规模 |
| 数据有异常值 | 不便删除或不宜删除 | 含合理极端值的数据 |
| 需要抗干扰的"典型值" | 希望代表大多数 | 居民收入中位数、房价中位数 |
如何向AI描述:
"计算薪资的中位数"
"求一下房价列的中位数"
四、均值 vs 中位数:关键对比
4.1 对比总览
| 对比维度 | 均值 | 中位数 |
|---|---|---|
| 定义 | 算术平均 | 中间位置的值 |
| 受极端值影响 | 非常敏感 | 完全不受影响 |
| 数据利用 | 利用全部数据 | 只利用位置信息 |
| 数学性质 | 好(可进一步运算) | 一般 |
| 适用场景 | 对称分布 | 偏态分布 |
| 业务含义 | "平均每个" | "一半以上的人达到" |
4.2 经典案例:收入分配
场景A:收入分布相对均匀
| 员工 | 月薪 |
|---|---|
| 员工A | 8,000 |
| 员工B | 9,000 |
| 员工C | 8,500 |
| 员工D | 9,500 |
| 员工E | 9,000 |
均值 = 8,800,中位数 = 9,000 → 接近,说明收入分配相对均匀
场景B:收入差距很大(有极高高收入)
| 员工 | 月薪 |
|---|---|
| 员工A | 5,000 |
| 员工B | 6,000 |
| 员工C | 5,500 |
| 员工D | 8,000 |
| 员工E | 500,000 |
均值 = 104,900,中位数 = 6,000 → 差距巨大,中位数更能代表"典型员工"
4.3 从均值和中位数的关系读懂数据
| 关系 | 说明 | 业务含义 | 例子 |
|---|---|---|---|
| 均值 ≈ 中位数 | 数据对称分布 | "典型值"和平均值差不多 | 身高、考试成绩 |
| 均值 > 中位数 | 数据右偏(右侧有大的极端值) | 少数高值拉高了平均值 | 收入、房价、用户消费 |
| 均值 < 中位数 | 数据左偏(左侧有小的极端值) | 少数低值拉低了平均值 | 某些考试分数(少数人不及格拉低平均) |
实际案例:
- 某小区房价:多数房子500-600万,几套别墅2000万+ → 均值600万,中位数550万 → 右偏
- 某次考试:多数人80-90分,少数人不及格(50分) → 均值80分,中位数85分 → 左偏
核心洞察 :当均值和中位数差距巨大时,一定要警惕------平均值可能具有欺骗性。
4.4 实际应用建议
| 场景 | 推荐用 | 理由 |
|---|---|---|
| 汇报给大众/媒体 | 中位数 | 更公平,不被极端值扭曲 |
| 内部经营分析 | 看两者 | 既要了解典型,也要警惕极端 |
| 建模之前 | 取决于模型 | 线性回归用均值,决策树不敏感 |
| 发现异常值 | 对比两者 | 差距大提示存在异常值 |
五、标准差(Standard Deviation)
5.1 它是什么?
标准差 衡量数据相对于均值的离散程度------即数据是紧密聚集在均值附近,还是分散在很大范围内。
通俗理解:
- 标准差小 :大多数数据点靠近均值,数据稳定
- 标准差大 :数据点分散,数据波动大、不稳定
5.2 一个直观的例子
班级A的考试成绩:85, 86, 84, 87, 85 → 均值≈85.4,标准差≈1.0(很小)
班级B的考试成绩:60, 95, 50, 98, 55 → 均值≈71.6,标准差≈21(很大)
| 班级 | 均值 | 标准差 | 解读 |
|---|---|---|---|
| A班 | 85.4 | 1.0 | 成绩稳定,学生水平接近 |
| B班 | 71.6 | 21 | 成绩波动大,有好学生也有差学生 |
5.3 标准差的业务含义
| 标准差大小 | 业务含义 | 举例 |
|---|---|---|
| 小 | 稳定 、一致 、风险低 | 月销售额标准差小 → 收入稳定可预测 |
| 大 | 波动大 、差异大 、风险高 | 股票收益率标准差大 → 高风险高收益 |
5.4 实际应用场景
场景A:供应链管理
两家供应商的交货时间(天数):
- 供应商X:3, 3, 4, 4, 3(均值=3.4,标准差≈0.5)→ 准时稳定
- 供应商Y:1, 5, 2, 6, 3(均值=3.4,标准差≈1.9)→ 波动大,有时早到有时迟到
→ 即使均值相同,标准差小的X供应商更可靠。
场景B:投资分析
两只基金的月收益率:
- 基金A:1%, 1.2%, 0.8%, 1.1%, 0.9%(均值≈1%,标准差≈0.15)→ 稳健型
- 基金B:5%, -3%, 8%, -2%, 4%(均值≈2.4%,标准差≈4.2)→ 波动型
→ 基金B期望收益更高,但风险也更大。
5.5 标准差 vs 均值的结合解读
| 组合 | 解读 | 例子 |
|---|---|---|
| 均值高 + 标准差小 | 高水平且稳定 | 优质供应商、高考重点班 |
| 均值低 + 标准差小 | 低水平但稳定 | 全员表现一般且一致 |
| 均值高 + 标准差大 | 整体水平高但差异大 | 有明星员工也有一般员工 |
| 均值低 + 标准差大 | 整体水平低且波动大 | 不稳定、高风险 |
如何向AI描述:
"计算销售额的标准差,看看波动大不大"
"两个班级的成绩,哪个班更稳定?"
六、分位数(Quantile)
6.1 它是什么?
分位数是将排序后的数据分成若干等份的切割点。它告诉你"百分之多少的数据小于某个值"。
6.2 常见分位数
| 分位数 | 含义 | 通俗说法 |
|---|---|---|
| 25%分位数(Q1) | 25%的数据小于这个值 | 排名后25% |
| 50%分位数(Q2) | 50%的数据小于这个值 | 这正好是中位数 |
| 75%分位数(Q3) | 75%的数据小于这个值 | 排名前25% |
| 90%分位数 | 90%的数据小于这个值 | 前10%的高手 |
| 99%分位数 | 99%的数据小于这个值 | 前1%的顶尖 |
6.3 一个直观的例子
12个学生的考试成绩(排序后):
55, 60, 65, 70, 75, 80, 82, 85, 88, 90, 92, 95
| 分位数 | 计算 | 解读 |
|---|---|---|
| 25%分位数 | 60-65之间 ≈ 62.5 | 25%的学生低于62.5分 |
| 50%分位数(中位数) | (80+82)/2 = 81 | 一半学生低于81分 |
| 75%分位数 | 88-90之间 ≈ 89 | 75%的学生低于89分 |
6.4 分位数的实用价值
价值1:全面理解分布,不受异常值干扰
只用均值会掩盖分布的真实形状。分位数能告诉你:
- 普通人在什么范围? → 看25%-75%分位数区间
- 高绩效者有多好? → 看90%分位数
- 是否存在极端值? → 看99%分位数与最大值的差距
价值2:发现数据问题和异常
| 观察 | 可能的问题 |
|---|---|
| 25%分位数 = 最小值 | 超过25%的数据等于最小值(可能是默认值) |
| 50%分位数 = 75%分位数 | 大量数据集中在同一个值 |
| 99%分位数远大于75%分位数 | 存在极端高值 |
价值3:群体对比
问题:"高价值用户"应该怎么定义?
| 定义方式 | 规则 | 优缺点 |
|---|---|---|
| 绝对阈值 | 消费>10,000元 | 不适合不同地区/产品线 |
| 分位数阈值 | 消费>90%分位数 | 适合定义"头部用户" |
6.5 四分位距(IQR)
IQR = Q3 - Q1,表示中间50%数据的范围。IQR越小,数据越集中;IQR越大,数据越分散。
实用场景:
| 场景 | 用途 |
|---|---|
| 1.5×IQR规则 | 识别异常值:超出(Q1-1.5×IQR, Q3+1.5×IQR) |
| 箱线图 | 可视化数据分布和异常值 |
| 数据波动比较 | IQR比标准差更抗异常值 |
如何向AI描述:
"计算薪资的各分位数:25%、50%、75%、90%、99%"
"用分位数找出top 10%的高价值用户"
七、完整解读案例
7.1 案例一:电商用户消费金额分析
业务背景:某电商平台想要了解用户的消费水平,制定营销策略。
数据:10,000名用户过去一年的消费金额(单位:元)
描述性统计:
| 指标 | 数值 | 解读 |
|---|---|---|
| 均值 | 1,200 | 平均消费1200元 |
| 中位数 | 450 | 一半用户消费低于450元 |
| 标准差 | 3,500 | 消费差异极大 |
| 最小值 | 0 | 有用户未消费 |
| 25%分位数 | 0 | 25%用户没有消费 |
| 50%分位数 | 450 | 中等水平用户 |
| 75%分位数 | 1,200 | 前25%用户消费>1200元 |
| 90%分位数 | 3,800 | top 10%用户 |
| 99%分位数 | 12,000 | 顶级用户 |
| 最大值 | 150,000 | 存在超高消费用户 |
关键洞察:
- 均值(1200) > 中位数(450):数据右偏,少数高消费用户拉高了平均值
- 75%分位数 = 1200 = 均值:说明前25%用户的平均消费显著高于整体
- 25%分位数 = 最小值:至少25%的用户全年无消费
业务结论:
- 用中位数450元代表"典型用户的消费水平"比均值更准确
- 用户两极分化严重:25%无消费,25%高消费(>1200元)
- 营销策略:唤醒无消费用户,维护高频高消费用户
7.2 案例二:二手车价格分析(基于清洗后的数据集)
业务背景:分析二手车价格的分布特征,为定价模型做准备。
价格数据描述性统计:
| 指标 | 数值(元) | 解读 |
|---|---|---|
| 均值 | 5,923 | 平均价格约6000元 |
| 中位数 | 3,500 | 一半车辆价格低于3500元 |
| 标准差 | 7,505 | 价格差异非常显著 |
| 最小值 | 1,000 | 清理后最低价(原11元已清除) |
| 25%分位数 | 1,500 | 低价车区间 |
| 50%分位数 | 3,500 | 中位价格 |
| 75%分位数 | 7,500 | 中高价位 |
| 90%分位数 | 15,000 | 前10%车辆 |
| 99%分位数 | 45,000 | 高端二手车 |
| 最大值 | 99,999 | 价格上限 |
关键发现:
- 均值 > 中位数:右偏分布,价格分布不对称
- 标准差接近均值:波动极大,定价难度高
- 25%分位点到75%分位点:跨度为1,500-7,500元,中间50%车辆集中在此区间
对建模的启示:
- 目标变量
price右偏 → 建模时可能需要log(price)变换 - 价格跨度大 → 需要丰富特征来捕捉差异
7.3 案例三:发动机功率分布分析
功率数据描述性统计:
| 指标 | 数值(马力) | 解读 |
|---|---|---|
| 均值 | 120 | 平均功率120马力 |
| 中位数 | 110 | 一半车辆功率>110马力 |
| 标准差 | 240 | 波动极大(清洗前) |
| 25%分位数 | 80 | 小功率车型 |
| 50%分位数 | 110 | 主力车型 |
| 75%分位数 | 150 | 大功率车型 |
| 最大值 | 12,000 | ⚠️ 明显异常(清洗时已处理) |
发现:标准差(240)比均值(120)还大,说明存在极端的异常值(如12,000马力的记录),这些已在清洗阶段处理。
八、如何向AI描述描述性统计需求
| 你的需求 | 你应该这样告诉AI |
|---|---|
| 完整统计 | "对数据集的数值列做描述性统计分析" |
| 均值中位数对比 | "计算消费金额的均值和中位数,看看差距大不大" |
| 标准差 | "计算销售额的标准差,看波动大不大" |
| 分位数 | "计算薪资的25%、50%、75%、90%分位数" |
| 分布特征 | "帮我分析价格列的分布特征:是否偏态?有没有异常值?" |
| 业务解读 | "均值远大于中位数说明什么?帮我解释一下" |
九、本章总结
核心指标速记卡
| 指标 | 一句话 | 业务含义 |
|---|---|---|
| 均值 | "平均每个" | 数据集中趋势(对极端值敏感) |
| 中位数 | "一半以上" | 典型值(抗极端值) |
| 标准差 | "波动多大" | 稳定性、风险、差异程度 |
| 分位数 | "排第几" | 位置、排名、分布形状 |
核心原则
- 均值不一定是"典型的":当数据有极端值时,中位数更靠谱
- 均值 vs 中位数揭示分布形状:相等→对称,更大→右偏,更小→左偏
- 标准差告诉你风险:越大越不稳定
- 分位数给你更完整的画面:从最小值到最大值,了解数据全貌
核心心法
"描述性统计不是算几个数字就完了。真正的价值在于从数字中读出业务故事------均值>中位数说明什么?标准差大意味着什么?分位数告诉我们什么?"
思考题
-
某公司员工年薪数据:均值8万,中位数6万。你向老板汇报"公司年薪平均8万"。老板很满意,但员工觉得自己被代表了。问题出在哪里?
-
两所学校的平均分都是85分,但A校标准差5,B校标准差15。作为家长,你更愿意让孩子去哪所学校?为什么?
-
电商平台双十一的单日销售额是平日的30倍。计算"日销售额标准差"时,这个数据应该包含在内吗?为什么?
-
某城市房价:25%分位数200万,75%分位数800万。这个跨度说明了什么问题?
-
如果你是二手车平台的数据分析师,你发现价格列的均值远大于中位数。这会对你的定价策略产生什么影响?