5.4 分布分析

本章学习目标

  • 理解什么是数据分布、为什么要看分布
  • 认识正态分布:长什么样、为什么常见、有什么规律
  • 理解偏态数据:正偏(右偏)和负偏(左偏)意味着什么
  • 学会从分布形状中发现业务洞察
  • 核心能力:不只看"平均",还要看"分布"

一、什么是分布?

1.1 核心定义

数据分布描述的是一个数据集中,不同数值出现的"频率"或"密度"------哪些数值出现得多,哪些出现得少。

通俗理解:把数据画成直方图,你看到的"形状"就是分布。

1.2 为什么要看分布?

只算平均值 看分布
知道"中心"在哪里 知道数据是集中还是分散
只能用一个数字代表 看到数据的全貌
容易被极端值欺骗 能发现极端值和异常
看不到数据的"形状" 形状本身就是重要信息

1.3 一个经典例子:两个班级的考试成绩

两个班平均分都是80分,但分布完全不同:

分数区间 A班人数 B班人数
60-70 5 15
70-80 15 20
80-90 15 10
90-100 5 5

只靠平均值:两个班都是80分 → 一样好

看分布后

  • A班:成绩集中在70-90分,分布相对集中
  • B班:成绩分布在60-90分,有更多学生偏低分

洞察:平均值相同,分布不同,教学策略也应该不同。

1.4 业务中为什么要看分布?

业务场景 看分布能发现什么
用户消费 少数人贡献多数收入吗?分布右偏严重吗?
响应时间 大多数请求很快,但有少数"长尾"慢请求吗?
产品质量 尺寸分布集中在标准值附近吗?还是分散?
员工绩效 大多数人是平均水平,还是有明显分层?

二、正态分布

2.1 正态分布长什么样?

正态分布(Normal Distribution)是统计学中最重要、最常见的分布形态,在图形上呈现为一条对称的"钟形曲线"。

视觉特征

  • 中间高,两边低
  • 左右对称
  • 大部分数据集中在中心附近

2.2 正态分布的"形状"描述

特征 说明
单峰 只有一个高峰(集中在中间)
对称 左右镜像对称
钟形 中间高、两边低,像一口钟
尾部渐消 越往两边,数据越少,无限接近0

2.3 为什么正态分布这么常见?

很多自然现象和社会现象都近似服从正态分布:

领域 例子 解释
生物学 身高、体重 多数人在平均值附近,极端高/矮的人很少
心理学 IQ分数 设计时就定义为正态分布
制造业 产品尺寸 生产过程有随机误差,误差呈正态分布
教育 考试成绩 多数学生中等水平,优秀和不及格较少
医学 血压、心率 健康人群的生理指标

核心原因:当许多独立因素叠加共同影响一个结果时,这个结果往往呈正态分布(中心极限定理)。

2.4 正态分布的百分比规律(68-95-99.7法则)

在正态分布中,数据在均值周围的分布是有规律的:

范围 包含的数据比例
均值 ± 1个标准差 约68%
均值 ± 2个标准差 约95%
均值 ± 3个标准差 约99.7%

实际含义(以身高为例,均值170cm,标准差10cm):

范围 身高区间 包含的人群比例
±1σ 160-180cm 约68%的人在此区间
±2σ 150-190cm 约95%的人在此区间
±3σ 140-200cm 约99.7%的人在此区间

业务应用:当需要定义"什么算异常"时,可以用±2σ或±3σ作为阈值。

2.5 如何判断数据是否接近正态分布?

方法 怎么看
直方图 图形是否大致对称、钟形?
均值与中位数 是否大致相等?
箱线图 箱子是否居中,两端是否大致对称?
Q-Q图 点是否大致在一条直线上?

三、偏态分布

3.1 什么是偏态?

当数据分布不对称 时,称为偏态分布。分两种情况:

类型 别名 特征 尾部朝向
正偏态 右偏 均值 > 中位数 > 众数 右侧有一条长尾
负偏态 左偏 均值 < 中位数 < 众数 左侧有一条长尾

3.2 正偏态(右偏)

长什么样

  • 大部分数据集中在左侧(低值区域)
  • 右侧有一条长尾,延伸到高值
  • 均值被少数高值拉向右方

典型例子

例子 为什么是正偏
个人收入 多数人收入中等偏低,少数富豪收入极高
房价 多数房子普通价格,少数豪宅价格极高
公司规模 大量小公司,少数巨头
用户消费 多数用户消费少,少数VIP消费多
社交媒体粉丝 多数人粉丝少,少数大V粉丝极多

业务含义

业务场景 正偏意味着什么 应对策略
用户消费 少数高消费用户贡献大部分收入 VIP维护很重要
响应时间 大部分请求快,少数慢 优化长尾慢请求
产品销量 少数爆款贡献大部分销量 头部SKU重点管理

案例分析:某App用户月消费分布(正偏)

复制代码
           ┌─────┐
           │     │
        ┌──┴─────┴──┐
        │           │
     ┌──┴───────────┴──┐
     │                 │
  ┌──┴─────────────────┴──┐
  │                        │
  └────────────────────────┴──→ 消费金额(元)
    0    100   500   1000  5000+
消费区间 用户占比 消费总额占比
0-100元 60% 10%
100-500元 25% 30%
500-1000元 10% 25%
1000元以上 5% 35%

洞察:5%的用户贡献了35%的消费 → 典型的"二八定律"

3.3 负偏态(左偏)

长什么样

  • 大部分数据集中在右侧(高值区域)
  • 左侧有一条长尾,延伸到低值
  • 均值被少数低值拉向左方

典型例子

例子 为什么是负偏
考试通过率 多数及格,少数不及格被"挡"在低分
寿命分布 多数人活到70-80岁,少数早逝拉出左尾
产品质量 多数产品合格,少数不合格
客户满意度 多数满意,少数不满意

业务含义

业务场景 负偏意味着什么 应对策略
考试分数 多数及格,少数不及格 关注不及格群体的原因
客户满意度 多数满意,少数投诉 分析投诉原因,解决少数不满
设备故障 多数正常运行,少数故障 关注导致故障的少数原因

3.4 回顾二手车数据集:价格分布

二手车价格分布通常是正偏态(右偏):

复制代码
                     ┌─────┐
                     │     │
                  ┌──┴─────┴──┐
                  │           │
               ┌──┴───────────┴──┐
               │                 │
            ┌──┴─────────────────┴──┐
            │                        │
         ┌──┴────────────────────────┴──┐
         │                               │
         └───────────────────────────────┴──→ 价格(元)
           0    2000   5000   10000  20000+
价格区间 车辆占比
0-2000元 30%
2000-5000元 35%
5000-10000元 20%
10000-20000元 10%
20000元以上 5%

业务含义

  • 多数二手车价格在2000-5000元区间
  • 少数高端车拉高了均价
  • 对建模的启示:可以对价格做log变换,使其更接近正态分布,提升模型效果

四、其他常见分布形态

4.1 均匀分布

长什么样:所有数值出现的频率大致相同。

例子

  • 骰子的点数(每个面概率≈1/6)
  • 随机数生成器

业务含义:数据没有集中趋势,各区间差异不大。

4.2 双峰分布(多峰分布)

长什么样:有两个(或多个)明显的高峰。

例子

  • 混合两个不同群体:小学生身高(低峰)+ 中学生身高(高峰)→ 两个峰
  • 周末 vs 工作日的网站访问量

业务含义:数据可能来自两个不同的群体或状态,需要分组分析。

4.3 分布形态速查表

分布类型 图形特征 均值 vs 中位数 典型例子 业务含义
正态 对称钟形 身高、IQ 过程稳定,多数集中在均值附近
正偏 左侧集中,右侧长尾 均值 > 中位数 收入、房价 少数高值拉高整体
负偏 右侧集中,左侧长尾 均值 < 中位数 及格率、合格率 少数低值拉低整体
均匀 平直 相等 骰子 各区间无差异
双峰 两个高峰 可能在中间 混合群体 数据包含不同子群体

五、分布分析的业务价值

5.1 发现异常

问题:数据中是否存在不应该出现的值?

分布中看到 可能的问题
在0附近有异常的峰 大量默认值或未记录值
某个值的频率异常高 数据重复或录入偏好
出现孤立的高值或低值 异常值

5.2 指导数据处理

分布形态 对数据处理的影响
正态分布 可用均值代表,标准差有意义
正偏分布 用中位数代表"典型值",建模时可能需要log变换
双峰分布 可能需要拆分为两个子群体分别分析

5.3 辅助业务决策

案例:电商用户消费分布分析

发现 业务决策
消费分布呈正偏,少数高消费用户贡献主要收入 VIP维护是最高优先级
大量用户消费为0 需要激活策略
消费分布出现双峰 可能存在两类不同消费行为的用户,需要分别运营

六、二手车数据分布实战分析

6.1 价格分布

统计指标 数值
均值 5,923元
中位数 3,500元
偏度 正偏(右偏)

业务洞察

  • 多数二手车价格集中在2000-5000元
  • 少数高端二手车(如豪华品牌)价格在20000元以上
  • 整体分布右偏,符合预期

建模启示:价格右偏 → 目标变量可能需要做对数变换(log price)。

6.2 车龄分布

车龄区间 车辆占比
1年内 8%
1-3年 25%
3-5年 35%
5-8年 22%
8年以上 10%

业务洞察

  • 3-5年车龄的车辆最多(二手车交易的主力军)
  • 车龄分布近似正态,峰值在3-5年

6.3 功率分布

统计指标 数值
均值 120马力
中位数 110马力
分布形状 正偏(右偏)

业务洞察

  • 大多数车辆功率在80-150马力(家用车主力区间)
  • 少数高性能车功率较高,形成右侧长尾

6.4 里程分布

统计指标 数值
均值 12.4万公里
中位数 9万公里
分布形状 正偏(右偏)

业务洞察

  • 多数车辆里程在5-15万公里
  • 少数高里程车辆形成右尾

七、如何向AI描述分布分析需求

你的需求 你应该这样告诉AI
画直方图 "画一个价格列的直方图,看看分布形态"
画密度图 "画价格列的核密度曲线,看分布是否平滑"
检查正态性 "价格列是否服从正态分布?"
偏度判断 "分析价格列的偏度,是左偏还是右偏?"
双峰检测 "检查消费列是否有两个明显的峰值"
加log变换 "对价格做log变换,再画分布图看看"
分组分布对比 "按品牌分组,画每组的价格分布箱线图"

八、本章总结

核心知识点速记

概念 一句话
分布 数据在不同数值上的频率分布
正态分布 钟形、对称、中间多两边少
正偏(右偏) 右侧有长尾,均值 > 中位数
负偏(左偏) 左侧有长尾,均值 < 中位数

分布形态快速识别

形态 图形特征 均值 vs 中位数 例子
正态 对称钟形 大致相等 身高
正偏 左侧集中,右侧长尾 均值 > 中位数 收入
负偏 右侧集中,左侧长尾 均值 < 中位数 及格率

核心心法

"平均值告诉你'中心',分布告诉你'形状'。只看平均值会忽略重要信息------极端值、双峰、偏斜------这些'形状'里藏着业务故事。"

九、思考题

  1. 一个城市的"平均工资"是8000元,但大部分人感觉自己的工资"被平均了"。这通常意味着收入分布是什么形态?为什么?

  2. 某产品的用户使用时长分布呈正偏(右偏)------大部分用户使用时间短,少数重度用户使用时间长。这应该怎么解读?对产品策略有什么启示?

  3. 正态分布有一个"68-95-99.7法则"。如果你们公司的员工绩效评分近似正态分布,均值75,标准差8,那么大约有多少人得分在59-91之间?

  4. 一家餐厅的顾客等待时间分布:多数人在5-10分钟等到座位,少数人需要等20-30分钟。这个分布是正偏还是负偏?对餐厅管理有什么建议?

  5. 你对价格列做了log变换后,分布变得更接近正态分布了。这个操作对后续的预测建模有什么帮助?


相关推荐
听你说321 小时前
从人力到算力:库萨科技无人清扫车领跑无人化环卫时代
人工智能·科技·机器人
happyprince1 小时前
08-FlagEmbedding 支持的嵌入与重排序模型综述
人工智能
codecrafter1231 小时前
LocalAI 开源AI引擎,本地运行多模态模型无需GPU
人工智能·其他·开源
零壹AI实验室1 小时前
AI Agent开发实战(一):5分钟搭个能干活的企业级Agent
人工智能
阿聪谈架构1 小时前
第10章:Agent 记忆系统 —— 让 AI 真正"记住"你
人工智能·后端
2zcode1 小时前
基于图像处理与数据分析的智能答题卡识别与阅卷系统设计与实现
图像处理·人工智能·数据分析
互联科技报1 小时前
能做表格的 AI 软件:数以轻舟Agent,AI 原生重构表格数据分析全流程
人工智能·重构·数据分析
深圳季连AIgraphX1 小时前
面向量产的自动驾驶高危场景库构建
人工智能·机器学习·自动驾驶
zzzzzz3101 小时前
60ms 启动一个安全沙箱:深入解析腾讯云 CubeSandbox 的架构设计
人工智能