机器学习概率论与统计学--(2)统计学基础

欢迎来到统计学的基础世界！如果说概率论是研究"已知总体规律，推测随机现象"的学问，那么统计学则是它的"逆问题"：通过分析有限的数据样本，来推断总体的特征和规律。

我们将从数据本身出发，学习如何描述数据、度量数据的特征，并通过可视化来直观展示数据背后的信息。准备好了吗？让我们开始吧！

1. 数据类型

在分析任何数据之前，首先要搞清楚数据属于哪种类型，因为这决定了我们可以使用哪些统计方法和可视化手段。数据通常分为以下三类：

1.1 分类变量 (Nominal / Categorical)

定义：数据代表类别，没有内在的顺序或大小关系。
例子：
- 性别：男、女
- 颜色：红、绿、蓝
- 血型：A、B、AB、O
操作：只能比较是否相等，不能进行加减运算。

1.2 有序变量 (Ordinal)

定义：数据有明确的顺序或等级，但类别之间的"距离"不一定相等。
例子：
- 教育程度：小学、初中、高中、大学、研究生
- 满意度调查：非常不满意、不满意、一般、满意、非常满意
操作：可以比较大小（如"大学" > "高中"），但不能说"大学"比"高中"多出多少"单位"。

1.3 数值变量 (Numerical)

定义：数据是数字，具有实际的数值意义，可以进行算术运算。进一步分为：
- 离散变量 ：取值是有限个或可数无限个（通常是整数）。
  - 例子：家庭成员数、公交车上的乘客数、骰子点数。
- 连续变量 ：取值在一定范围内可以是任意实数。
  - 例子：身高、体重、温度、时间。

小贴士：在数据分析中，有时会把有序变量当作数值来处理（尤其是在某些模型中），但这样做需要谨慎，因为它隐含了"等间距"的假设。

2. 集中趋势度量

集中趋势用来描述数据的"中心位置"或"典型值"。最常见的指标有三个：均值、中位数和众数。

2.1 均值 (Mean)

算术均值

x ˉ = x 1 + x 2 + ⋯ + x n n = 1 n ∑ i = 1 n x i \bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=nx1+x2+⋯+xn=n1i=1∑nxi

它是所有数据点的算术平均值，也是最常用的集中趋势度量。

加权均值

当每个数据点具有不同的"权重" w i w_i wi 时：
x ˉ w = ∑ i = 1 n w i x i ∑ i = 1 n w i \bar{x}w = \frac{\sum{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i} xˉw=∑i=1nwi∑i=1nwixi

例子：一门课平时成绩占 30%，期末成绩占 70%。平时 85 分，期末 90 分，则加权均值为 ( 0.3 × 85 + 0.7 × 90 ) = 88.5 (0.3 \times 85 + 0.7 \times 90) = 88.5 (0.3×85+0.7×90)=88.5 分。

2.2 中位数 (Median)

将数据从小到大排序后，位于中间位置的数值。如果数据个数为奇数，中位数就是正中间那个数；如果为偶数，则是中间两个数的平均值。

优点：对异常值（极端值）不敏感，具有很强的稳健性。
缺点：没有充分利用所有数据的信息。

例子：数据集 $1 , 2 , 3 , 4 , 100$ $1, 2, 3, 4, 100$ $1,2,3,4,100$ ，均值为 ( 1 + 2 + 3 + 4 + 100 ) / 5 = 22 (1+2+3+4+100)/5 = 22 (1+2+3+4+100)/5=22，而中位数为 3。中位数更能代表这组数据的"典型"水平，因为它没有被异常值 100 拉高。

2.3 众数 (Mode)

数据中出现次数最多的数值。一个数据集可能有一个众数（单峰）、多个众数（多峰）或没有众数。

众数适用于所有数据类型，尤其是分类变量。

例子：调查颜色偏好： $红, 蓝, 红, 绿, 红, 蓝$ ，众数是"红"。

2.4 均值与中位数的比较

对称分布：均值 ≈ 中位数。
右偏分布（正偏）：数据右侧有长尾（大的异常值），均值 > 中位数。比如收入分布，少数高收入者会将均值拉高。
左偏分布（负偏）：数据左侧有长尾（小的异常值），均值 < 中位数。

选择建议：当数据存在明显的异常值或分布严重偏斜时，中位数是更稳健的选择（例如房价、收入分析）。当数据分布对称且没有异常值时，均值能更充分地利用数据信息。

3. 离散程度度量

离散程度描述了数据的"分散性"或"变异性"。两个数据集可能有相同的均值，但分散程度可能完全不同。

3.1 极差 (Range)

极差 = 最大值 − 最小值 \text{极差} = \text{最大值} - \text{最小值} 极差=最大值−最小值

优点：计算简单。
缺点：只用了两个极端值，对异常值极其敏感，不能反映内部波动。

3.2 方差与标准差

总体方差

σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 σ2=N1i=1∑N(xi−μ)2

其中 N N N 是总体大小， μ \mu μ 是总体均值。

样本方差

s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n−11i=1∑n(xi−xˉ)2

其中 n n n 是样本大小， $\\bar{x}$ 是样本均值。

标准差

方差的平方根，与原始数据单位相同，便于解释：
σ = σ 2 , s = s 2 \sigma = \sqrt{\sigma^2}, \quad s = \sqrt{s^2} σ=σ2 ,s=s2

为什么样本方差要除以 n − 1 n-1 n−1 而不是 n n n？

这是为了获得无偏估计 。样本均值 x ˉ \bar{x} xˉ 本身是对总体均值的一个估计，使用 x ˉ \bar{x} xˉ 代替 μ \mu μ 时会使得计算出的离差平方和略微偏小。除以 n − 1 n-1 n−1（即自由度）可以修正这个偏差，使得样本方差的期望值等于总体方差。直观上，当我们用样本均值时，实际上"消耗"了一个自由度，剩下的 n − 1 n-1 n−1 个数据点才真正提供关于变异性的信息。

3.3 四分位数与四分位距

四分位数

将排序后的数据分成四等份的三个点：

下四分位数 Q 1 Q_1 Q1：第 25% 位置的值。
中位数 Q 2 Q_2 Q2：第 50% 位置的值。
上四分位数 Q 3 Q_3 Q3：第 75% 位置的值。

四分位距 (IQR)

IQR = Q 3 − Q 1 \text{IQR} = Q_3 - Q_1 IQR=Q3−Q1

它衡量了中间 50% 数据的分散程度。与极差相比，IQR 对异常值不敏感，是一种稳健的离散度量。

3.4 变异系数 (Coefficient of Variation, CV)

C V = s x ˉ × 100 % CV = \frac{s}{\bar{x}} \times 100\% CV=xˉs×100%

用途：用于比较不同单位或不同均值水平的数据的离散程度。例如，比较身高（厘米）和体重（千克）的变异程度，或者比较两组均值差异很大的数据。
注意：只有当数据为比率尺度（有实际意义的零点）且均值为正时才适用。

4. 分布形状

除了中心和离散程度，数据的分布形状也很重要，主要通过偏度和峰度来描述。

4.1 偏度 (Skewness)

偏度衡量分布的不对称性。

对称分布：偏度 ≈ 0。左右两侧镜像对称。
右偏（正偏）：右侧有长尾，均值 > 中位数。例如收入分布、房屋价格。
左偏（负偏）：左侧有长尾，均值 < 中位数。例如考试成绩（大部分学生分数较高，少数低分拉长左侧）。

4.2 峰度 (Kurtosis)

峰度衡量分布尾部的厚重程度，以及峰顶的尖峭程度。

尖峰（高狭峰）：峰度 > 0（相对于正态分布），尾部较厚，极端值出现概率更大。例如金融收益率数据常呈现尖峰特征。
平峰（低阔峰）：峰度 < 0，尾部较薄，分布更平坦。
正态分布：峰度 = 0（作为基准）。

注意：峰度主要关注的是尾部的极端值，而非仅仅"峰顶"的尖峭程度。

5. 数据可视化

"一图胜千言"，可视化是探索性数据分析的核心工具。下面介绍几种最常用的统计图形。

5.1 直方图 (Histogram)

用途：展示数值变量的分布形态（中心、离散、偏度、峰度、多峰性等）。
关键：组距的选择 至关重要。
- 组距过小：图形过于锯齿状，噪声多。
- 组距过大：信息被过度平滑，细节丢失。
- 常用经验法则：Sturges 公式（ k = ⌈ log ⁡ 2 n + 1 ⌉ k = \lceil \log_2 n + 1 \rceil k=⌈log2n+1⌉），或直接尝试不同组距寻找最合适的视图。

5.2 箱线图 (Box Plot)

用途：展示数据的五数概括（最小值、 Q 1 Q_1 Q1、中位数、 Q 3 Q_3 Q3、最大值），并直观识别异常值。
结构：
- 箱子：从 Q 1 Q_1 Q1 到 Q 3 Q_3 Q3，箱中的线是中位数。
- 胡须：通常延伸到 Q 1 − 1.5 × IQR Q_1 - 1.5 \times \text{IQR} Q1−1.5×IQR 和 Q 3 + 1.5 × IQR Q_3 + 1.5 \times \text{IQR} Q3+1.5×IQR 范围内的最远点。
- 异常值：超出胡须范围的点，通常单独标出（如圆圈或星号）。
优点：可同时比较多个组别的分布，稳健且信息量大。

5.3 散点图 (Scatter Plot)

用途：探索两个数值变量之间的关系（趋势、相关性、聚类、异常点）。
解读：
- 正相关：点从左下向右上延伸。
- 负相关：点从左上向右下延伸。
- 无关：点无明显方向。
- 非线性关系：如抛物线形状。

5.4 Q-Q 图 (Quantile-Quantile Plot)

用途：初步判断数据是否来自某个理论分布（最常见是正态分布）。
原理：将样本的分位数与理论分布的分位数进行对比。
解读：
- 如果点大致落在一条直线上，说明数据与该理论分布拟合良好。
- 若在尾部明显偏离直线，说明存在偏度或厚尾特征。
常见应用：在进行 t 检验、方差分析等参数检验前，用 Q-Q 图检查数据的正态性假设。

6. 总结

统计学基础是数据分析的基石。从理解数据类型开始，我们学会了：

用均值、中位数、众数描述中心；
用方差、标准差、IQR描述离散程度；
用偏度、峰度描述分布形状；
用直方图、箱线图、散点图、Q-Q 图来直观探索数据。

这些工具共同构成了描述性统计的核心，也是通往推断统计和机器学习的大门。如果你已经掌握了概率论的基础（正如我们上一讲所学的），那么接下来就可以利用这些统计学工具，从样本数据中做出关于总体的推断了。

上一章 机器学习概率论与统计学--(1)概率论基础

下一章 机器学习概率论与统计学--(3)概率论：随机变量