5.1 描述性统计

本章学习目标

  • 理解均值、中位数、标准差、分位数的含义和适用场景
  • 掌握均值 vs 中位数:什么时候用哪个、数据偏斜意味着什么
  • 理解标准差如何衡量数据波动和风险
  • 学会用分位数理解数据分布的全貌
  • 重点是解读:这些数字告诉我们什么业务故事
  • 不需要记住计算公式,只需要知道"怎么理解、怎么用"

一、什么是描述性统计?

1.1 核心定义

描述性统计是用几个关键数字概括和描述一个数据集的整体特征。它回答的核心问题是:

问题 对应指标
"典型值是多少?" 均值、中位数、众数
"数据分散还是集中?" 标准差、极差、方差
"数据分布在什么范围?" 最小值、最大值、分位数
"数据是对称还是偏斜?" 偏度

1.2 为什么描述性统计如此重要?

想象一下,别人给了你一份10万条销售数据的Excel文件。你不能一条一条地看,你需要用几个数字快速了解:

  • 销售额大概在什么范围?(从几元百万?)
  • 典型的销售额是多少?(100元 还是1000元?)
  • 销售额波动大吗?(每天都差不多,还是有大单?)

描述性统计就是给你这几个关键数字,让你在几秒钟内了解数据的全貌。

1.3 一个生活化的例子:了解一个班级的成绩

假设你是一个班级的新老师,你需要快速了解班级的整体学习水平。你拿到了全班50个学生的成绩:

统计指标 计算结果 解读
均值 80分 平均成绩不错
中位数 85分 一半以上学生超过85分
标准差 15分 成绩波动较大
最小值 40分 有个别学生成绩偏低
最大值 100分 有满分学生
25%分位数 70分 前25%的学生成绩低于70分

通过这些数字,你不需要一个一个地看50个成绩,就已经对班级的整体情况有了清晰的了解。

二、均值(Mean)------ 最常用的"平均值"

2.1 它是什么?

均值是所有数值加起来,除以数值的个数。它是最常用的"平均值"。

计算公式:均值 = (总数1 + 总数2 + ... + 总数n) / n

2.2 一个直观的例子

5个人的月薪:

  • 员工A:5,000元
  • 员工B:6,000元
  • 员工C:5,500元
  • 员工D:7,000元
  • 员工E:50,000元(老板)

计算 :(5000 + 6000 + 5500 + 7000 + 50000) / 5 = 14,700元

2.3 均值的优点和缺点

优点 缺点
计算简单,容易理解 对极端值(异常值)非常敏感
包含了所有数据的信息 数据偏斜时,均值不能代表"典型值"
数学性质好,适合进一步计算 会被一个极大值拉高,或被极小值拉低

2.4 什么时候用均值?

适用场景 特征 举例
数据对称分布 没有极端值 成年男性身高(大多数在165-185之间)
需要进一步统计分析 后续计算需要 回归分析、假设检验
数据量足够大 异常值影响被稀释 大样本调查

如何向AI描述

"计算销售额的平均值"
"求一下年龄列的均值"

三、中位数(Median)------ 更能代表"典型值"

3.1 它是什么?

中位数是将所有数值从小到大排序后,位于正中间的那个数。它代表的是"有一半数据大于它,一半数据小于它"。

如果数据个数是奇数,中位数就是中间那个数;如果是偶数,中位数是中间两个数的平均值。

3.2 一个直观的例子

还是那5个人的月薪,排序后:

5,000、5,500、6,000、7,000、50,000

中位数 = 6,000元(排在中间的第三个数)

关键洞察:中位数6,000元比均值14,700元更能代表"普通员工"的薪资水平。

3.3 中位数的优点和缺点

优点 缺点
不受极端值影响,非常稳健 没有充分利用所有数据的信息
更能代表"典型值" 数学性质不如均值好
适合偏态分布 某些统计方法需要均值而非中位数

3.4 什么时候用中位数?

适用场景 特征 举例
数据偏态分布 存在极端值 收入、房价、公司规模
数据有异常值 不便删除或不宜删除 含合理极端值的数据
需要抗干扰的"典型值" 希望代表大多数 居民收入中位数、房价中位数

如何向AI描述

"计算薪资的中位数"
"求一下房价列的中位数"

四、均值 vs 中位数:关键对比

4.1 对比总览

对比维度 均值 中位数
定义 算术平均 中间位置的值
受极端值影响 非常敏感 完全不受影响
数据利用 利用全部数据 只利用位置信息
数学性质 好(可进一步运算) 一般
适用场景 对称分布 偏态分布
业务含义 "平均每个" "一半以上的人达到"

4.2 经典案例:收入分配

场景A:收入分布相对均匀

员工 月薪
员工A 8,000
员工B 9,000
员工C 8,500
员工D 9,500
员工E 9,000

均值 = 8,800,中位数 = 9,000 → 接近,说明收入分配相对均匀

场景B:收入差距很大(有极高高收入)

员工 月薪
员工A 5,000
员工B 6,000
员工C 5,500
员工D 8,000
员工E 500,000

均值 = 104,900,中位数 = 6,000 → 差距巨大,中位数更能代表"典型员工"

4.3 从均值和中位数的关系读懂数据

关系 说明 业务含义 例子
均值 ≈ 中位数 数据对称分布 "典型值"和平均值差不多 身高、考试成绩
均值 > 中位数 数据右偏(右侧有大的极端值) 少数高值拉高了平均值 收入、房价、用户消费
均值 < 中位数 数据左偏(左侧有小的极端值) 少数低值拉低了平均值 某些考试分数(少数人不及格拉低平均)

实际案例

  • 某小区房价:多数房子500-600万,几套别墅2000万+ → 均值600万,中位数550万 → 右偏
  • 某次考试:多数人80-90分,少数人不及格(50分) → 均值80分,中位数85分 → 左偏

核心洞察 :当均值和中位数差距巨大时,一定要警惕------平均值可能具有欺骗性

4.4 实际应用建议

场景 推荐用 理由
汇报给大众/媒体 中位数 更公平,不被极端值扭曲
内部经营分析 看两者 既要了解典型,也要警惕极端
建模之前 取决于模型 线性回归用均值,决策树不敏感
发现异常值 对比两者 差距大提示存在异常值

五、标准差(Standard Deviation)

5.1 它是什么?

标准差 衡量数据相对于均值的离散程度------即数据是紧密聚集在均值附近,还是分散在很大范围内。

通俗理解

  • 标准差小 :大多数数据点靠近均值,数据稳定
  • 标准差大 :数据点分散,数据波动大、不稳定

5.2 一个直观的例子

班级A的考试成绩:85, 86, 84, 87, 85 → 均值≈85.4,标准差≈1.0(很小)

班级B的考试成绩:60, 95, 50, 98, 55 → 均值≈71.6,标准差≈21(很大)

班级 均值 标准差 解读
A班 85.4 1.0 成绩稳定,学生水平接近
B班 71.6 21 成绩波动大,有好学生也有差学生

5.3 标准差的业务含义

标准差大小 业务含义 举例
稳定一致风险低 月销售额标准差小 → 收入稳定可预测
波动大差异大风险高 股票收益率标准差大 → 高风险高收益

5.4 实际应用场景

场景A:供应链管理

两家供应商的交货时间(天数):

  • 供应商X:3, 3, 4, 4, 3(均值=3.4,标准差≈0.5)→ 准时稳定
  • 供应商Y:1, 5, 2, 6, 3(均值=3.4,标准差≈1.9)→ 波动大,有时早到有时迟到

→ 即使均值相同,标准差小的X供应商更可靠。

场景B:投资分析

两只基金的月收益率:

  • 基金A:1%, 1.2%, 0.8%, 1.1%, 0.9%(均值≈1%,标准差≈0.15)→ 稳健型
  • 基金B:5%, -3%, 8%, -2%, 4%(均值≈2.4%,标准差≈4.2)→ 波动型

→ 基金B期望收益更高,但风险也更大。

5.5 标准差 vs 均值的结合解读

组合 解读 例子
均值高 + 标准差小 高水平且稳定 优质供应商、高考重点班
均值低 + 标准差小 低水平但稳定 全员表现一般且一致
均值高 + 标准差大 整体水平高但差异大 有明星员工也有一般员工
均值低 + 标准差大 整体水平低且波动大 不稳定、高风险

如何向AI描述

"计算销售额的标准差,看看波动大不大"
"两个班级的成绩,哪个班更稳定?"

六、分位数(Quantile)

6.1 它是什么?

分位数是将排序后的数据分成若干等份的切割点。它告诉你"百分之多少的数据小于某个值"。

6.2 常见分位数

分位数 含义 通俗说法
25%分位数(Q1) 25%的数据小于这个值 排名后25%
50%分位数(Q2) 50%的数据小于这个值 这正好是中位数
75%分位数(Q3) 75%的数据小于这个值 排名前25%
90%分位数 90%的数据小于这个值 前10%的高手
99%分位数 99%的数据小于这个值 前1%的顶尖

6.3 一个直观的例子

12个学生的考试成绩(排序后):

55, 60, 65, 70, 75, 80, 82, 85, 88, 90, 92, 95

分位数 计算 解读
25%分位数 60-65之间 ≈ 62.5 25%的学生低于62.5分
50%分位数(中位数) (80+82)/2 = 81 一半学生低于81分
75%分位数 88-90之间 ≈ 89 75%的学生低于89分

6.4 分位数的实用价值

价值1:全面理解分布,不受异常值干扰

只用均值会掩盖分布的真实形状。分位数能告诉你:

  • 普通人在什么范围? → 看25%-75%分位数区间
  • 高绩效者有多好? → 看90%分位数
  • 是否存在极端值? → 看99%分位数与最大值的差距

价值2:发现数据问题和异常

观察 可能的问题
25%分位数 = 最小值 超过25%的数据等于最小值(可能是默认值)
50%分位数 = 75%分位数 大量数据集中在同一个值
99%分位数远大于75%分位数 存在极端高值

价值3:群体对比

问题:"高价值用户"应该怎么定义?

定义方式 规则 优缺点
绝对阈值 消费>10,000元 不适合不同地区/产品线
分位数阈值 消费>90%分位数 适合定义"头部用户"

6.5 四分位距(IQR)

IQR = Q3 - Q1,表示中间50%数据的范围。IQR越小,数据越集中;IQR越大,数据越分散。

实用场景

场景 用途
1.5×IQR规则 识别异常值:超出(Q1-1.5×IQR, Q3+1.5×IQR)
箱线图 可视化数据分布和异常值
数据波动比较 IQR比标准差更抗异常值

如何向AI描述

"计算薪资的各分位数:25%、50%、75%、90%、99%"
"用分位数找出top 10%的高价值用户"

七、完整解读案例

7.1 案例一:电商用户消费金额分析

业务背景:某电商平台想要了解用户的消费水平,制定营销策略。

数据:10,000名用户过去一年的消费金额(单位:元)

描述性统计

指标 数值 解读
均值 1,200 平均消费1200元
中位数 450 一半用户消费低于450元
标准差 3,500 消费差异极大
最小值 0 有用户未消费
25%分位数 0 25%用户没有消费
50%分位数 450 中等水平用户
75%分位数 1,200 前25%用户消费>1200元
90%分位数 3,800 top 10%用户
99%分位数 12,000 顶级用户
最大值 150,000 存在超高消费用户

关键洞察

  1. 均值(1200) > 中位数(450):数据右偏,少数高消费用户拉高了平均值
  2. 75%分位数 = 1200 = 均值:说明前25%用户的平均消费显著高于整体
  3. 25%分位数 = 最小值:至少25%的用户全年无消费

业务结论

  • 用中位数450元代表"典型用户的消费水平"比均值更准确
  • 用户两极分化严重:25%无消费,25%高消费(>1200元)
  • 营销策略:唤醒无消费用户,维护高频高消费用户

7.2 案例二:二手车价格分析(基于清洗后的数据集)

业务背景:分析二手车价格的分布特征,为定价模型做准备。

价格数据描述性统计

指标 数值(元) 解读
均值 5,923 平均价格约6000元
中位数 3,500 一半车辆价格低于3500元
标准差 7,505 价格差异非常显著
最小值 1,000 清理后最低价(原11元已清除)
25%分位数 1,500 低价车区间
50%分位数 3,500 中位价格
75%分位数 7,500 中高价位
90%分位数 15,000 前10%车辆
99%分位数 45,000 高端二手车
最大值 99,999 价格上限

关键发现

  1. 均值 > 中位数:右偏分布,价格分布不对称
  2. 标准差接近均值:波动极大,定价难度高
  3. 25%分位点到75%分位点:跨度为1,500-7,500元,中间50%车辆集中在此区间

对建模的启示

  • 目标变量price右偏 → 建模时可能需要log(price)变换
  • 价格跨度大 → 需要丰富特征来捕捉差异

7.3 案例三:发动机功率分布分析

功率数据描述性统计

指标 数值(马力) 解读
均值 120 平均功率120马力
中位数 110 一半车辆功率>110马力
标准差 240 波动极大(清洗前)
25%分位数 80 小功率车型
50%分位数 110 主力车型
75%分位数 150 大功率车型
最大值 12,000 ⚠️ 明显异常(清洗时已处理)

发现:标准差(240)比均值(120)还大,说明存在极端的异常值(如12,000马力的记录),这些已在清洗阶段处理。

八、如何向AI描述描述性统计需求

你的需求 你应该这样告诉AI
完整统计 "对数据集的数值列做描述性统计分析"
均值中位数对比 "计算消费金额的均值和中位数,看看差距大不大"
标准差 "计算销售额的标准差,看波动大不大"
分位数 "计算薪资的25%、50%、75%、90%分位数"
分布特征 "帮我分析价格列的分布特征:是否偏态?有没有异常值?"
业务解读 "均值远大于中位数说明什么?帮我解释一下"

九、本章总结

核心指标速记卡

指标 一句话 业务含义
均值 "平均每个" 数据集中趋势(对极端值敏感)
中位数 "一半以上" 典型值(抗极端值)
标准差 "波动多大" 稳定性、风险、差异程度
分位数 "排第几" 位置、排名、分布形状

核心原则

  1. 均值不一定是"典型的":当数据有极端值时,中位数更靠谱
  2. 均值 vs 中位数揭示分布形状:相等→对称,更大→右偏,更小→左偏
  3. 标准差告诉你风险:越大越不稳定
  4. 分位数给你更完整的画面:从最小值到最大值,了解数据全貌

核心心法

"描述性统计不是算几个数字就完了。真正的价值在于从数字中读出业务故事------均值>中位数说明什么?标准差大意味着什么?分位数告诉我们什么?"

思考题

  1. 某公司员工年薪数据:均值8万,中位数6万。你向老板汇报"公司年薪平均8万"。老板很满意,但员工觉得自己被代表了。问题出在哪里?

  2. 两所学校的平均分都是85分,但A校标准差5,B校标准差15。作为家长,你更愿意让孩子去哪所学校?为什么?

  3. 电商平台双十一的单日销售额是平日的30倍。计算"日销售额标准差"时,这个数据应该包含在内吗?为什么?

  4. 某城市房价:25%分位数200万,75%分位数800万。这个跨度说明了什么问题?

  5. 如果你是二手车平台的数据分析师,你发现价格列的均值远大于中位数。这会对你的定价策略产生什么影响?


相关推荐
清山博客2 小时前
Python使用Matplotlib绘制基础可视化图表
信息可视化·数据挖掘·数据分析
谙弆悕博士2 小时前
R 语言学习笔记
笔记·学习·数据分析·r语言·数据可视化
70asunflower2 小时前
7.3 分类 —— 预测一个类别
人工智能·分类·数据挖掘·数据分析
babe小鑫2 小时前
咨询行业转行数据分析指南
数据挖掘·数据分析
babe小鑫2 小时前
2026金融行业学数据分析的价值
金融·数据挖掘·数据分析
YangYang9YangYan3 小时前
2026产品运营岗学数据分析的价值
数据挖掘·数据分析·产品运营
源码之家3 小时前
计算机毕业设计:Python基于知识图谱的医疗问答系统 Neo4j 机器学习 BERT 深度学习 ECharts(建议收藏)✅
python·深度学习·机器学习·信息可视化·数据分析·知识图谱·课程设计
YangYang9YangYan3 小时前
2026营销策划岗学数据分析的价值
数据挖掘·数据分析·产品经理
城数派3 小时前
2000-2024年省市县三级的逐月归一化植被指数(NDVI)数据
数据库·arcgis·信息可视化·数据分析·excel