机器学习概率论与统计学--(2)统计学基础

欢迎来到统计学的基础世界!如果说概率论是研究"已知总体规律,推测随机现象"的学问,那么统计学则是它的"逆问题":通过分析有限的数据样本,来推断总体的特征和规律

我们将从数据本身出发,学习如何描述数据、度量数据的特征,并通过可视化来直观展示数据背后的信息。准备好了吗?让我们开始吧!

1. 数据类型

在分析任何数据之前,首先要搞清楚数据属于哪种类型,因为这决定了我们可以使用哪些统计方法和可视化手段。数据通常分为以下三类:

1.1 分类变量 (Nominal / Categorical)

  • 定义:数据代表类别,没有内在的顺序或大小关系。
  • 例子
    • 性别:男、女
    • 颜色:红、绿、蓝
    • 血型:A、B、AB、O
  • 操作:只能比较是否相等,不能进行加减运算。

1.2 有序变量 (Ordinal)

  • 定义:数据有明确的顺序或等级,但类别之间的"距离"不一定相等。
  • 例子
    • 教育程度:小学、初中、高中、大学、研究生
    • 满意度调查:非常不满意、不满意、一般、满意、非常满意
  • 操作:可以比较大小(如"大学" > "高中"),但不能说"大学"比"高中"多出多少"单位"。

1.3 数值变量 (Numerical)

  • 定义 :数据是数字,具有实际的数值意义,可以进行算术运算。进一步分为:
    • 离散变量 :取值是有限个或可数无限个(通常是整数)。
      • 例子:家庭成员数、公交车上的乘客数、骰子点数。
    • 连续变量 :取值在一定范围内可以是任意实数。
      • 例子:身高、体重、温度、时间。

小贴士:在数据分析中,有时会把有序变量当作数值来处理(尤其是在某些模型中),但这样做需要谨慎,因为它隐含了"等间距"的假设。


2. 集中趋势度量

集中趋势用来描述数据的"中心位置"或"典型值"。最常见的指标有三个:均值、中位数和众数。

2.1 均值 (Mean)

算术均值

x ˉ = x 1 + x 2 + ⋯ + x n n = 1 n ∑ i = 1 n x i \bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=nx1+x2+⋯+xn=n1i=1∑nxi

它是所有数据点的算术平均值,也是最常用的集中趋势度量。

加权均值

当每个数据点具有不同的"权重" w i w_i wi 时:
x ˉ w = ∑ i = 1 n w i x i ∑ i = 1 n w i \bar{x}w = \frac{\sum{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i} xˉw=∑i=1nwi∑i=1nwixi

例子 :一门课平时成绩占 30%,期末成绩占 70%。平时 85 分,期末 90 分,则加权均值为 ( 0.3 × 85 + 0.7 × 90 ) = 88.5 (0.3 \times 85 + 0.7 \times 90) = 88.5 (0.3×85+0.7×90)=88.5 分。

2.2 中位数 (Median)

将数据从小到大排序后,位于中间位置的数值。如果数据个数为奇数,中位数就是正中间那个数;如果为偶数,则是中间两个数的平均值。

  • 优点 :对异常值(极端值)不敏感,具有很强的稳健性
  • 缺点:没有充分利用所有数据的信息。

例子 :数据集 [ 1 , 2 , 3 , 4 , 100 ] [1, 2, 3, 4, 100] [1,2,3,4,100],均值为 ( 1 + 2 + 3 + 4 + 100 ) / 5 = 22 (1+2+3+4+100)/5 = 22 (1+2+3+4+100)/5=22,而中位数为 3。中位数更能代表这组数据的"典型"水平,因为它没有被异常值 100 拉高。

2.3 众数 (Mode)

数据中出现次数最多的数值。一个数据集可能有一个众数(单峰)、多个众数(多峰)或没有众数。

  • 众数适用于所有数据类型,尤其是分类变量。

例子:调查颜色偏好:[红, 蓝, 红, 绿, 红, 蓝],众数是"红"。

2.4 均值与中位数的比较

  • 对称分布:均值 ≈ 中位数。
  • 右偏分布(正偏):数据右侧有长尾(大的异常值),均值 > 中位数。比如收入分布,少数高收入者会将均值拉高。
  • 左偏分布(负偏):数据左侧有长尾(小的异常值),均值 < 中位数。

选择建议:当数据存在明显的异常值或分布严重偏斜时,中位数是更稳健的选择(例如房价、收入分析)。当数据分布对称且没有异常值时,均值能更充分地利用数据信息。


3. 离散程度度量

离散程度描述了数据的"分散性"或"变异性"。两个数据集可能有相同的均值,但分散程度可能完全不同。

3.1 极差 (Range)

极差 = 最大值 − 最小值 \text{极差} = \text{最大值} - \text{最小值} 极差=最大值−最小值

  • 优点:计算简单。
  • 缺点:只用了两个极端值,对异常值极其敏感,不能反映内部波动。

3.2 方差与标准差

总体方差

σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 σ2=N1i=1∑N(xi−μ)2

其中 N N N 是总体大小, μ \mu μ 是总体均值。

样本方差

s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n−11i=1∑n(xi−xˉ)2

其中 n n n 是样本大小, \\bar{x} 是样本均值。

标准差

方差的平方根,与原始数据单位相同,便于解释:
σ = σ 2 , s = s 2 \sigma = \sqrt{\sigma^2}, \quad s = \sqrt{s^2} σ=σ2 ,s=s2

为什么样本方差要除以 n − 1 n-1 n−1 而不是 n n n?

这是为了获得无偏估计 。样本均值 x ˉ \bar{x} xˉ 本身是对总体均值的一个估计,使用 x ˉ \bar{x} xˉ 代替 μ \mu μ 时会使得计算出的离差平方和略微偏小。除以 n − 1 n-1 n−1(即自由度)可以修正这个偏差,使得样本方差的期望值等于总体方差。直观上,当我们用样本均值时,实际上"消耗"了一个自由度,剩下的 n − 1 n-1 n−1 个数据点才真正提供关于变异性的信息。

3.3 四分位数与四分位距

四分位数

将排序后的数据分成四等份的三个点:

  • 下四分位数 Q 1 Q_1 Q1:第 25% 位置的值。
  • 中位数 Q 2 Q_2 Q2:第 50% 位置的值。
  • 上四分位数 Q 3 Q_3 Q3:第 75% 位置的值。
四分位距 (IQR)

IQR = Q 3 − Q 1 \text{IQR} = Q_3 - Q_1 IQR=Q3−Q1

它衡量了中间 50% 数据的分散程度。与极差相比,IQR 对异常值不敏感,是一种稳健的离散度量。

3.4 变异系数 (Coefficient of Variation, CV)

C V = s x ˉ × 100 % CV = \frac{s}{\bar{x}} \times 100\% CV=xˉs×100%

  • 用途:用于比较不同单位或不同均值水平的数据的离散程度。例如,比较身高(厘米)和体重(千克)的变异程度,或者比较两组均值差异很大的数据。
  • 注意:只有当数据为比率尺度(有实际意义的零点)且均值为正时才适用。

4. 分布形状

除了中心和离散程度,数据的分布形状也很重要,主要通过偏度和峰度来描述。

4.1 偏度 (Skewness)

偏度衡量分布的不对称性。

  • 对称分布:偏度 ≈ 0。左右两侧镜像对称。
  • 右偏(正偏):右侧有长尾,均值 > 中位数。例如收入分布、房屋价格。
  • 左偏(负偏):左侧有长尾,均值 < 中位数。例如考试成绩(大部分学生分数较高,少数低分拉长左侧)。

4.2 峰度 (Kurtosis)

峰度衡量分布尾部的厚重程度,以及峰顶的尖峭程度。

  • 尖峰(高狭峰):峰度 > 0(相对于正态分布),尾部较厚,极端值出现概率更大。例如金融收益率数据常呈现尖峰特征。
  • 平峰(低阔峰):峰度 < 0,尾部较薄,分布更平坦。
  • 正态分布:峰度 = 0(作为基准)。

注意:峰度主要关注的是尾部的极端值,而非仅仅"峰顶"的尖峭程度。


5. 数据可视化

"一图胜千言",可视化是探索性数据分析的核心工具。下面介绍几种最常用的统计图形。

5.1 直方图 (Histogram)

  • 用途:展示数值变量的分布形态(中心、离散、偏度、峰度、多峰性等)。
  • 关键组距的选择 至关重要。
    • 组距过小:图形过于锯齿状,噪声多。
    • 组距过大:信息被过度平滑,细节丢失。
    • 常用经验法则:Sturges 公式( k = ⌈ log ⁡ 2 n + 1 ⌉ k = \lceil \log_2 n + 1 \rceil k=⌈log2n+1⌉),或直接尝试不同组距寻找最合适的视图。

5.2 箱线图 (Box Plot)

  • 用途 :展示数据的五数概括(最小值、 Q 1 Q_1 Q1、中位数、 Q 3 Q_3 Q3、最大值),并直观识别异常值。
  • 结构
    • 箱子:从 Q 1 Q_1 Q1 到 Q 3 Q_3 Q3,箱中的线是中位数。
    • 胡须:通常延伸到 Q 1 − 1.5 × IQR Q_1 - 1.5 \times \text{IQR} Q1−1.5×IQR 和 Q 3 + 1.5 × IQR Q_3 + 1.5 \times \text{IQR} Q3+1.5×IQR 范围内的最远点。
    • 异常值:超出胡须范围的点,通常单独标出(如圆圈或星号)。
  • 优点:可同时比较多个组别的分布,稳健且信息量大。

5.3 散点图 (Scatter Plot)

  • 用途:探索两个数值变量之间的关系(趋势、相关性、聚类、异常点)。
  • 解读
    • 正相关:点从左下向右上延伸。
    • 负相关:点从左上向右下延伸。
    • 无关:点无明显方向。
    • 非线性关系:如抛物线形状。

5.4 Q-Q 图 (Quantile-Quantile Plot)

  • 用途:初步判断数据是否来自某个理论分布(最常见是正态分布)。
  • 原理:将样本的分位数与理论分布的分位数进行对比。
  • 解读
    • 如果点大致落在一条直线上,说明数据与该理论分布拟合良好。
    • 若在尾部明显偏离直线,说明存在偏度或厚尾特征。
  • 常见应用:在进行 t 检验、方差分析等参数检验前,用 Q-Q 图检查数据的正态性假设。

6. 总结

统计学基础是数据分析的基石。从理解数据类型开始,我们学会了:

  • 均值、中位数、众数描述中心;
  • 方差、标准差、IQR描述离散程度;
  • 偏度、峰度描述分布形状;
  • 直方图、箱线图、散点图、Q-Q 图来直观探索数据。

这些工具共同构成了描述性统计的核心,也是通往推断统计和机器学习的大门。如果你已经掌握了概率论的基础(正如我们上一讲所学的),那么接下来就可以利用这些统计学工具,从样本数据中做出关于总体的推断了。

上一章 机器学习概率论与统计学--(1)概率论基础

下一章 机器学习概率论与统计学--(3)概率论:随机变量

相关推荐
做科研的周师兄2 小时前
巴音河中下游灌溉草地空间分布数据集(2020年)
大数据·人工智能·算法·机器学习·数据挖掘·聚类
纤纡.2 小时前
矿物识别分类:8 种机器学习算法对比与实战(平均值填充数据集)
python·深度学习·算法·机器学习
链巨人4 小时前
海森矩阵(Hessian矩阵)及其应用
线性代数·机器学习·矩阵·概率论
城俊BLOG4 小时前
已落地量产的自动驾驶VLA技术解析:从“感知智能“到“认知智能“的工程化突围
人工智能·机器学习·自动驾驶
云和数据.ChenGuang4 小时前
chromadb为什么需要模拟数据运行
人工智能·神经网络·目标检测·机器学习·计算机视觉
renhongxia14 小时前
生产线数智化质量可靠性管控与安全风险感知
运维·人工智能·安全·机器学习·架构·自动化
Westward-sun.4 小时前
矿物分类实战(一):从异常值到标准化——数据清洗全流程拆解
人工智能·算法·机器学习·数据清洗
Zero4 小时前
机器学习概率论与统计学--(1)概率论基础
机器学习·概率论·统计学
逻辑君4 小时前
Research in Brain-inspired Computing [1]-果蝇大脑被上传
人工智能·机器学习