5.1 描述性统计

本章学习目标：

理解均值、中位数、标准差、分位数的含义和适用场景

掌握均值 vs 中位数：什么时候用哪个、数据偏斜意味着什么

理解标准差如何衡量数据波动和风险

学会用分位数理解数据分布的全貌

重点是解读：这些数字告诉我们什么业务故事

不需要记住计算公式，只需要知道"怎么理解、怎么用"

一、什么是描述性统计？

1.1 核心定义

描述性统计是用几个关键数字概括和描述一个数据集的整体特征。它回答的核心问题是：

问题	对应指标
"典型值是多少？"	均值、中位数、众数
"数据分散还是集中？"	标准差、极差、方差
"数据分布在什么范围？"	最小值、最大值、分位数
"数据是对称还是偏斜？"	偏度

1.2 为什么描述性统计如此重要？

想象一下，别人给了你一份10万条销售数据的Excel文件。你不能一条一条地看，你需要用几个数字快速了解：

销售额大概在什么范围？（从几元到百万？）
典型的销售额是多少？（100元 还是1000元？）
销售额波动大吗？（每天都差不多，还是有大单？）

描述性统计就是给你这几个关键数字，让你在几秒钟内了解数据的全貌。

1.3 一个生活化的例子：了解一个班级的成绩

假设你是一个班级的新老师，你需要快速了解班级的整体学习水平。你拿到了全班50个学生的成绩：

统计指标	计算结果	解读
均值	80分	平均成绩不错
中位数	85分	一半以上学生超过85分
标准差	15分	成绩波动较大
最小值	40分	有个别学生成绩偏低
最大值	100分	有满分学生
25%分位数	70分	前25%的学生成绩低于70分

通过这些数字，你不需要一个一个地看50个成绩，就已经对班级的整体情况有了清晰的了解。

二、均值（Mean）------ 最常用的"平均值"

2.1 它是什么？

均值是所有数值加起来，除以数值的个数。它是最常用的"平均值"。

计算公式：均值 = (总数1 + 总数2 + ... + 总数n) / n

2.2 一个直观的例子

5个人的月薪：

员工A：5,000元
员工B：6,000元
员工C：5,500元
员工D：7,000元
员工E：50,000元（老板）

计算：(5000 + 6000 + 5500 + 7000 + 50000) / 5 = 14,700元

2.3 均值的优点和缺点

优点	缺点
计算简单，容易理解	对极端值（异常值）非常敏感
包含了所有数据的信息	数据偏斜时，均值不能代表"典型值"
数学性质好，适合进一步计算	会被一个极大值拉高，或被极小值拉低

2.4 什么时候用均值？

适用场景	特征	举例
数据对称分布	没有极端值	成年男性身高（大多数在165-185之间）
需要进一步统计分析	后续计算需要	回归分析、假设检验
数据量足够大	异常值影响被稀释	大样本调查

如何向AI描述：

"计算销售额的平均值"
"求一下年龄列的均值"

三、中位数（Median）------ 更能代表"典型值"

3.1 它是什么？

中位数是将所有数值从小到大排序后，位于正中间的那个数。它代表的是"有一半数据大于它，一半数据小于它"。

如果数据个数是奇数，中位数就是中间那个数；如果是偶数，中位数是中间两个数的平均值。

3.2 一个直观的例子

还是那5个人的月薪，排序后：

5,000、5,500、6,000、7,000、50,000

中位数 = 6,000元（排在中间的第三个数）

关键洞察：中位数6,000元比均值14,700元更能代表"普通员工"的薪资水平。

3.3 中位数的优点和缺点

优点	缺点
不受极端值影响，非常稳健	没有充分利用所有数据的信息
更能代表"典型值"	数学性质不如均值好
适合偏态分布	某些统计方法需要均值而非中位数

3.4 什么时候用中位数？

适用场景	特征	举例
数据偏态分布	存在极端值	收入、房价、公司规模
数据有异常值	不便删除或不宜删除	含合理极端值的数据
需要抗干扰的"典型值"	希望代表大多数	居民收入中位数、房价中位数

如何向AI描述：

"计算薪资的中位数"
"求一下房价列的中位数"

四、均值 vs 中位数：关键对比

4.1 对比总览

对比维度	均值	中位数
定义	算术平均	中间位置的值
受极端值影响	非常敏感	完全不受影响
数据利用	利用全部数据	只利用位置信息
数学性质	好（可进一步运算）	一般
适用场景	对称分布	偏态分布
业务含义	"平均每个"	"一半以上的人达到"

4.2 经典案例：收入分配

场景A：收入分布相对均匀

员工	月薪
员工A	8,000
员工B	9,000
员工C	8,500
员工D	9,500
员工E	9,000

均值 = 8,800，中位数 = 9,000 → 接近，说明收入分配相对均匀

场景B：收入差距很大（有极高高收入）

员工	月薪
员工A	5,000
员工B	6,000
员工C	5,500
员工D	8,000
员工E	500,000

均值 = 104,900，中位数 = 6,000 → 差距巨大，中位数更能代表"典型员工"

4.3 从均值和中位数的关系读懂数据

关系	说明	业务含义	例子
均值 ≈ 中位数	数据对称分布	"典型值"和平均值差不多	身高、考试成绩
均值 > 中位数	数据右偏（右侧有大的极端值）	少数高值拉高了平均值	收入、房价、用户消费
均值 < 中位数	数据左偏（左侧有小的极端值）	少数低值拉低了平均值	某些考试分数（少数人不及格拉低平均）

实际案例：

某小区房价：多数房子500-600万，几套别墅2000万+ → 均值600万，中位数550万 → 右偏
某次考试：多数人80-90分，少数人不及格（50分） → 均值80分，中位数85分 → 左偏

核心洞察 ：当均值和中位数差距巨大时，一定要警惕------平均值可能具有欺骗性。

4.4 实际应用建议

场景	推荐用	理由
汇报给大众/媒体	中位数	更公平，不被极端值扭曲
内部经营分析	看两者	既要了解典型，也要警惕极端
建模之前	取决于模型	线性回归用均值，决策树不敏感
发现异常值	对比两者	差距大提示存在异常值

五、标准差（Standard Deviation）

5.1 它是什么？

标准差 衡量数据相对于均值的离散程度------即数据是紧密聚集在均值附近，还是分散在很大范围内。

通俗理解：

标准差小 ：大多数数据点靠近均值，数据稳定
标准差大 ：数据点分散，数据波动大、不稳定

5.2 一个直观的例子

班级A的考试成绩：85, 86, 84, 87, 85 → 均值≈85.4，标准差≈1.0（很小）

班级B的考试成绩：60, 95, 50, 98, 55 → 均值≈71.6，标准差≈21（很大）

班级	均值	标准差	解读
A班	85.4	1.0	成绩稳定，学生水平接近
B班	71.6	21	成绩波动大，有好学生也有差学生

5.3 标准差的业务含义

标准差大小	业务含义	举例
小	稳定、一致、风险低	月销售额标准差小 → 收入稳定可预测
大	波动大、差异大、风险高	股票收益率标准差大 → 高风险高收益

5.4 实际应用场景

场景A：供应链管理

两家供应商的交货时间（天数）：

供应商X：3, 3, 4, 4, 3（均值=3.4，标准差≈0.5）→ 准时稳定
供应商Y：1, 5, 2, 6, 3（均值=3.4，标准差≈1.9）→ 波动大，有时早到有时迟到

→ 即使均值相同，标准差小的X供应商更可靠。

场景B：投资分析

两只基金的月收益率：

基金A：1%, 1.2%, 0.8%, 1.1%, 0.9%（均值≈1%，标准差≈0.15）→ 稳健型
基金B：5%, -3%, 8%, -2%, 4%（均值≈2.4%，标准差≈4.2）→ 波动型

→ 基金B期望收益更高，但风险也更大。

5.5 标准差 vs 均值的结合解读

组合	解读	例子
均值高 + 标准差小	高水平且稳定	优质供应商、高考重点班
均值低 + 标准差小	低水平但稳定	全员表现一般且一致
均值高 + 标准差大	整体水平高但差异大	有明星员工也有一般员工
均值低 + 标准差大	整体水平低且波动大	不稳定、高风险

如何向AI描述：

"计算销售额的标准差，看看波动大不大"
"两个班级的成绩，哪个班更稳定？"

六、分位数（Quantile）

6.1 它是什么？

分位数是将排序后的数据分成若干等份的切割点。它告诉你"百分之多少的数据小于某个值"。

6.2 常见分位数

分位数	含义	通俗说法
25%分位数（Q1）	25%的数据小于这个值	排名后25%
50%分位数（Q2）	50%的数据小于这个值	这正好是中位数
75%分位数（Q3）	75%的数据小于这个值	排名前25%
90%分位数	90%的数据小于这个值	前10%的高手
99%分位数	99%的数据小于这个值	前1%的顶尖

6.3 一个直观的例子

12个学生的考试成绩（排序后）：

55, 60, 65, 70, 75, 80, 82, 85, 88, 90, 92, 95

分位数	计算	解读
25%分位数	60-65之间 ≈ 62.5	25%的学生低于62.5分
50%分位数（中位数）	(80+82)/2 = 81	一半学生低于81分
75%分位数	88-90之间 ≈ 89	75%的学生低于89分

6.4 分位数的实用价值

价值1：全面理解分布，不受异常值干扰

只用均值会掩盖分布的真实形状。分位数能告诉你：

普通人在什么范围？ → 看25%-75%分位数区间
高绩效者有多好？ → 看90%分位数
是否存在极端值？ → 看99%分位数与最大值的差距

价值2：发现数据问题和异常

观察	可能的问题
25%分位数 = 最小值	超过25%的数据等于最小值（可能是默认值）
50%分位数 = 75%分位数	大量数据集中在同一个值
99%分位数远大于75%分位数	存在极端高值

价值3：群体对比

问题："高价值用户"应该怎么定义？

定义方式	规则	优缺点
绝对阈值	消费>10,000元	不适合不同地区/产品线
分位数阈值	消费>90%分位数	适合定义"头部用户"

6.5 四分位距（IQR）

IQR = Q3 - Q1，表示中间50%数据的范围。IQR越小，数据越集中；IQR越大，数据越分散。

实用场景：

场景	用途
1.5×IQR规则	识别异常值：超出(Q1-1.5×IQR, Q3+1.5×IQR)
箱线图	可视化数据分布和异常值
数据波动比较	IQR比标准差更抗异常值

如何向AI描述：

"计算薪资的各分位数：25%、50%、75%、90%、99%"
"用分位数找出top 10%的高价值用户"

七、完整解读案例

7.1 案例一：电商用户消费金额分析

业务背景：某电商平台想要了解用户的消费水平，制定营销策略。

数据：10,000名用户过去一年的消费金额（单位：元）

描述性统计：

指标	数值	解读
均值	1,200	平均消费1200元
中位数	450	一半用户消费低于450元
标准差	3,500	消费差异极大
最小值	0	有用户未消费
25%分位数	0	25%用户没有消费
50%分位数	450	中等水平用户
75%分位数	1,200	前25%用户消费>1200元
90%分位数	3,800	top 10%用户
99%分位数	12,000	顶级用户
最大值	150,000	存在超高消费用户

关键洞察：

均值(1200) > 中位数(450)：数据右偏，少数高消费用户拉高了平均值
75%分位数 = 1200 = 均值：说明前25%用户的平均消费显著高于整体
25%分位数 = 最小值：至少25%的用户全年无消费

业务结论：

用中位数450元代表"典型用户的消费水平"比均值更准确
用户两极分化严重：25%无消费，25%高消费（>1200元）
营销策略：唤醒无消费用户，维护高频高消费用户

7.2 案例二：二手车价格分析（基于清洗后的数据集）

业务背景：分析二手车价格的分布特征，为定价模型做准备。

价格数据描述性统计：

指标	数值（元）	解读
均值	5,923	平均价格约6000元
中位数	3,500	一半车辆价格低于3500元
标准差	7,505	价格差异非常显著
最小值	1,000	清理后最低价（原11元已清除）
25%分位数	1,500	低价车区间
50%分位数	3,500	中位价格
75%分位数	7,500	中高价位
90%分位数	15,000	前10%车辆
99%分位数	45,000	高端二手车
最大值	99,999	价格上限

关键发现：

均值 > 中位数：右偏分布，价格分布不对称
标准差接近均值：波动极大，定价难度高
25%分位点到75%分位点：跨度为1,500-7,500元，中间50%车辆集中在此区间

对建模的启示：

目标变量price右偏 → 建模时可能需要log(price)变换
价格跨度大 → 需要丰富特征来捕捉差异

7.3 案例三：发动机功率分布分析

功率数据描述性统计：

指标	数值（马力）	解读
均值	120	平均功率120马力
中位数	110	一半车辆功率>110马力
标准差	240	波动极大（清洗前）
25%分位数	80	小功率车型
50%分位数	110	主力车型
75%分位数	150	大功率车型
最大值	12,000	⚠️ 明显异常（清洗时已处理）

发现：标准差(240)比均值(120)还大，说明存在极端的异常值（如12,000马力的记录），这些已在清洗阶段处理。

八、如何向AI描述描述性统计需求

你的需求	你应该这样告诉AI
完整统计	"对数据集的数值列做描述性统计分析"
均值中位数对比	"计算消费金额的均值和中位数，看看差距大不大"
标准差	"计算销售额的标准差，看波动大不大"
分位数	"计算薪资的25%、50%、75%、90%分位数"
分布特征	"帮我分析价格列的分布特征：是否偏态？有没有异常值？"
业务解读	"均值远大于中位数说明什么？帮我解释一下"

九、本章总结

核心指标速记卡

指标	一句话	业务含义
均值	"平均每个"	数据集中趋势（对极端值敏感）
中位数	"一半以上"	典型值（抗极端值）
标准差	"波动多大"	稳定性、风险、差异程度
分位数	"排第几"	位置、排名、分布形状

核心原则

均值不一定是"典型的"：当数据有极端值时，中位数更靠谱
均值 vs 中位数揭示分布形状：相等→对称，更大→右偏，更小→左偏
标准差告诉你风险：越大越不稳定
分位数给你更完整的画面：从最小值到最大值，了解数据全貌

核心心法

"描述性统计不是算几个数字就完了。真正的价值在于从数字中读出业务故事------均值>中位数说明什么？标准差大意味着什么？分位数告诉我们什么？"

思考题

某公司员工年薪数据：均值8万，中位数6万。你向老板汇报"公司年薪平均8万"。老板很满意，但员工觉得自己被代表了。问题出在哪里？
两所学校的平均分都是85分，但A校标准差5，B校标准差15。作为家长，你更愿意让孩子去哪所学校？为什么？
电商平台双十一的单日销售额是平日的30倍。计算"日销售额标准差"时，这个数据应该包含在内吗？为什么？
某城市房价：25%分位数200万，75%分位数800万。这个跨度说明了什么问题？
如果你是二手车平台的数据分析师，你发现价格列的均值远大于中位数。这会对你的定价策略产生什么影响？