欢迎来到统计学的基础世界!如果说概率论是研究"已知总体规律,推测随机现象"的学问,那么统计学则是它的"逆问题":通过分析有限的数据样本,来推断总体的特征和规律。
我们将从数据本身出发,学习如何描述数据、度量数据的特征,并通过可视化来直观展示数据背后的信息。准备好了吗?让我们开始吧!
1. 数据类型
在分析任何数据之前,首先要搞清楚数据属于哪种类型,因为这决定了我们可以使用哪些统计方法和可视化手段。数据通常分为以下三类:
1.1 分类变量 (Nominal / Categorical)
- 定义:数据代表类别,没有内在的顺序或大小关系。
- 例子 :
- 性别:男、女
- 颜色:红、绿、蓝
- 血型:A、B、AB、O
- 操作:只能比较是否相等,不能进行加减运算。
1.2 有序变量 (Ordinal)
- 定义:数据有明确的顺序或等级,但类别之间的"距离"不一定相等。
- 例子 :
- 教育程度:小学、初中、高中、大学、研究生
- 满意度调查:非常不满意、不满意、一般、满意、非常满意
- 操作:可以比较大小(如"大学" > "高中"),但不能说"大学"比"高中"多出多少"单位"。
1.3 数值变量 (Numerical)
- 定义 :数据是数字,具有实际的数值意义,可以进行算术运算。进一步分为:
- 离散变量 :取值是有限个或可数无限个(通常是整数)。
- 例子:家庭成员数、公交车上的乘客数、骰子点数。
- 连续变量 :取值在一定范围内可以是任意实数。
- 例子:身高、体重、温度、时间。
- 离散变量 :取值是有限个或可数无限个(通常是整数)。
小贴士:在数据分析中,有时会把有序变量当作数值来处理(尤其是在某些模型中),但这样做需要谨慎,因为它隐含了"等间距"的假设。
2. 集中趋势度量
集中趋势用来描述数据的"中心位置"或"典型值"。最常见的指标有三个:均值、中位数和众数。
2.1 均值 (Mean)
算术均值
x ˉ = x 1 + x 2 + ⋯ + x n n = 1 n ∑ i = 1 n x i \bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=nx1+x2+⋯+xn=n1i=1∑nxi
它是所有数据点的算术平均值,也是最常用的集中趋势度量。
加权均值
当每个数据点具有不同的"权重" w i w_i wi 时:
x ˉ w = ∑ i = 1 n w i x i ∑ i = 1 n w i \bar{x}w = \frac{\sum{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i} xˉw=∑i=1nwi∑i=1nwixi
例子 :一门课平时成绩占 30%,期末成绩占 70%。平时 85 分,期末 90 分,则加权均值为 ( 0.3 × 85 + 0.7 × 90 ) = 88.5 (0.3 \times 85 + 0.7 \times 90) = 88.5 (0.3×85+0.7×90)=88.5 分。
2.2 中位数 (Median)
将数据从小到大排序后,位于中间位置的数值。如果数据个数为奇数,中位数就是正中间那个数;如果为偶数,则是中间两个数的平均值。
- 优点 :对异常值(极端值)不敏感,具有很强的稳健性。
- 缺点:没有充分利用所有数据的信息。
例子 :数据集 [ 1 , 2 , 3 , 4 , 100 ] [1, 2, 3, 4, 100] [1,2,3,4,100],均值为 ( 1 + 2 + 3 + 4 + 100 ) / 5 = 22 (1+2+3+4+100)/5 = 22 (1+2+3+4+100)/5=22,而中位数为 3。中位数更能代表这组数据的"典型"水平,因为它没有被异常值 100 拉高。
2.3 众数 (Mode)
数据中出现次数最多的数值。一个数据集可能有一个众数(单峰)、多个众数(多峰)或没有众数。
- 众数适用于所有数据类型,尤其是分类变量。
例子:调查颜色偏好:[红, 蓝, 红, 绿, 红, 蓝],众数是"红"。
2.4 均值与中位数的比较
- 对称分布:均值 ≈ 中位数。
- 右偏分布(正偏):数据右侧有长尾(大的异常值),均值 > 中位数。比如收入分布,少数高收入者会将均值拉高。
- 左偏分布(负偏):数据左侧有长尾(小的异常值),均值 < 中位数。
选择建议:当数据存在明显的异常值或分布严重偏斜时,中位数是更稳健的选择(例如房价、收入分析)。当数据分布对称且没有异常值时,均值能更充分地利用数据信息。
3. 离散程度度量
离散程度描述了数据的"分散性"或"变异性"。两个数据集可能有相同的均值,但分散程度可能完全不同。
3.1 极差 (Range)
极差 = 最大值 − 最小值 \text{极差} = \text{最大值} - \text{最小值} 极差=最大值−最小值
- 优点:计算简单。
- 缺点:只用了两个极端值,对异常值极其敏感,不能反映内部波动。
3.2 方差与标准差
总体方差
σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 σ2=N1i=1∑N(xi−μ)2
其中 N N N 是总体大小, μ \mu μ 是总体均值。
样本方差
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n−11i=1∑n(xi−xˉ)2
其中 n n n 是样本大小, \\bar{x} 是样本均值。
标准差
方差的平方根,与原始数据单位相同,便于解释:
σ = σ 2 , s = s 2 \sigma = \sqrt{\sigma^2}, \quad s = \sqrt{s^2} σ=σ2 ,s=s2
为什么样本方差要除以 n − 1 n-1 n−1 而不是 n n n?
这是为了获得无偏估计 。样本均值 x ˉ \bar{x} xˉ 本身是对总体均值的一个估计,使用 x ˉ \bar{x} xˉ 代替 μ \mu μ 时会使得计算出的离差平方和略微偏小。除以 n − 1 n-1 n−1(即自由度)可以修正这个偏差,使得样本方差的期望值等于总体方差。直观上,当我们用样本均值时,实际上"消耗"了一个自由度,剩下的 n − 1 n-1 n−1 个数据点才真正提供关于变异性的信息。
3.3 四分位数与四分位距
四分位数
将排序后的数据分成四等份的三个点:
- 下四分位数 Q 1 Q_1 Q1:第 25% 位置的值。
- 中位数 Q 2 Q_2 Q2:第 50% 位置的值。
- 上四分位数 Q 3 Q_3 Q3:第 75% 位置的值。
四分位距 (IQR)
IQR = Q 3 − Q 1 \text{IQR} = Q_3 - Q_1 IQR=Q3−Q1
它衡量了中间 50% 数据的分散程度。与极差相比,IQR 对异常值不敏感,是一种稳健的离散度量。
3.4 变异系数 (Coefficient of Variation, CV)
C V = s x ˉ × 100 % CV = \frac{s}{\bar{x}} \times 100\% CV=xˉs×100%
- 用途:用于比较不同单位或不同均值水平的数据的离散程度。例如,比较身高(厘米)和体重(千克)的变异程度,或者比较两组均值差异很大的数据。
- 注意:只有当数据为比率尺度(有实际意义的零点)且均值为正时才适用。
4. 分布形状
除了中心和离散程度,数据的分布形状也很重要,主要通过偏度和峰度来描述。
4.1 偏度 (Skewness)
偏度衡量分布的不对称性。
- 对称分布:偏度 ≈ 0。左右两侧镜像对称。
- 右偏(正偏):右侧有长尾,均值 > 中位数。例如收入分布、房屋价格。
- 左偏(负偏):左侧有长尾,均值 < 中位数。例如考试成绩(大部分学生分数较高,少数低分拉长左侧)。
4.2 峰度 (Kurtosis)
峰度衡量分布尾部的厚重程度,以及峰顶的尖峭程度。
- 尖峰(高狭峰):峰度 > 0(相对于正态分布),尾部较厚,极端值出现概率更大。例如金融收益率数据常呈现尖峰特征。
- 平峰(低阔峰):峰度 < 0,尾部较薄,分布更平坦。
- 正态分布:峰度 = 0(作为基准)。
注意:峰度主要关注的是尾部的极端值,而非仅仅"峰顶"的尖峭程度。
5. 数据可视化
"一图胜千言",可视化是探索性数据分析的核心工具。下面介绍几种最常用的统计图形。
5.1 直方图 (Histogram)
- 用途:展示数值变量的分布形态(中心、离散、偏度、峰度、多峰性等)。
- 关键 :组距的选择 至关重要。
- 组距过小:图形过于锯齿状,噪声多。
- 组距过大:信息被过度平滑,细节丢失。
- 常用经验法则:Sturges 公式( k = ⌈ log 2 n + 1 ⌉ k = \lceil \log_2 n + 1 \rceil k=⌈log2n+1⌉),或直接尝试不同组距寻找最合适的视图。
5.2 箱线图 (Box Plot)
- 用途 :展示数据的五数概括(最小值、 Q 1 Q_1 Q1、中位数、 Q 3 Q_3 Q3、最大值),并直观识别异常值。
- 结构 :
- 箱子:从 Q 1 Q_1 Q1 到 Q 3 Q_3 Q3,箱中的线是中位数。
- 胡须:通常延伸到 Q 1 − 1.5 × IQR Q_1 - 1.5 \times \text{IQR} Q1−1.5×IQR 和 Q 3 + 1.5 × IQR Q_3 + 1.5 \times \text{IQR} Q3+1.5×IQR 范围内的最远点。
- 异常值:超出胡须范围的点,通常单独标出(如圆圈或星号)。
- 优点:可同时比较多个组别的分布,稳健且信息量大。
5.3 散点图 (Scatter Plot)
- 用途:探索两个数值变量之间的关系(趋势、相关性、聚类、异常点)。
- 解读 :
- 正相关:点从左下向右上延伸。
- 负相关:点从左上向右下延伸。
- 无关:点无明显方向。
- 非线性关系:如抛物线形状。
5.4 Q-Q 图 (Quantile-Quantile Plot)
- 用途:初步判断数据是否来自某个理论分布(最常见是正态分布)。
- 原理:将样本的分位数与理论分布的分位数进行对比。
- 解读 :
- 如果点大致落在一条直线上,说明数据与该理论分布拟合良好。
- 若在尾部明显偏离直线,说明存在偏度或厚尾特征。
- 常见应用:在进行 t 检验、方差分析等参数检验前,用 Q-Q 图检查数据的正态性假设。
6. 总结
统计学基础是数据分析的基石。从理解数据类型开始,我们学会了:
- 用均值、中位数、众数描述中心;
- 用方差、标准差、IQR描述离散程度;
- 用偏度、峰度描述分布形状;
- 用直方图、箱线图、散点图、Q-Q 图来直观探索数据。
这些工具共同构成了描述性统计的核心,也是通往推断统计和机器学习的大门。如果你已经掌握了概率论的基础(正如我们上一讲所学的),那么接下来就可以利用这些统计学工具,从样本数据中做出关于总体的推断了。