统计学基础

总论

一、基础概念

在数据科学领域，机器学习的范式与统计学的传统方法存在深刻的对应关系：

监督学习 (Supervised Learning) ⟷⟷ 统计分类 (Statistical Classification)
- 定义：利用带有标签（已知结果）的训练数据来构建模型，目的是预测新数据的离散类别标签。
- 统计学视角：属于判别分析或回归分析（当目标为离散变量时），旨在寻找特征 X 与类别 Y 之间的映射函数 f:X→Y。
- 典型算法：逻辑回归、支持向量机 (SVM)、决策树、朴素贝叶斯。
无监督学习 (Unsupervised Learning) ⟷⟷ 统计聚类 (Statistical Clustering)
- 定义：处理没有标签的数据，旨在发现数据内部的结构、模式或分组。
- 统计学视角：属于探索性数据分析，旨在根据样本间的相似性或距离度量，将数据划分为若干个簇（Cluster），使得簇内差异最小化，簇间差异最大化。
- 典型算法：K-Means、层次聚类、DBSCAN、高斯混合模型 (GMM)。

数据学习方法
监督学习
无监督学习
对应：统计分类
特征：有标签
对应：统计聚类
特征：无标签

1. 核心概念

概念	定义	关键属性	常用符号
总体Population	研究对象的完整集合。包含所有符合特定条件的个体。	唯一性：范围确定。不可全知性：通常因数量巨大而无法全面观测。	NNN (大小)
个体Individual	构成总体的最小基本单位。	独立性：每个个体是独立的观察单元。载体性：变量的具体承载者。	-
样本 Sample	从总体中按规则抽取的子集。	代表性：旨在反映总体特征。随机性：不同抽样会得到不同样本。	nnn (大小)
变量Variable	描述个体某种属性或特征的概念。	变异性：取值在不同个体间发生变化。分类性：分为定性（类别）与定量（数值）。	X,YX, YX,Y
参数 Parameter	描述总体特征的固定数值指标。	常数性：客观存在且唯一，不随抽样改变。未知性：通常需要通过估计获知。	μ,σ,π\mu, \sigma, \piμ,σ,π(希腊字母)
统计量 Statistic	描述样本特征的计算数值指标。	随机性：随样本不同而波动（随机变量）。可知性：可直接通过样本数据计算得出。	xˉ,s,p\bar{x}, s, pxˉ,s,p(拉丁字母)

此图展示了五个概念在统计推断过程中的抽象逻辑流：
推断域：样本
过程：抽样
目标域：总体
由...构成
具有属性
属性汇总
随机抽取
属性计算
逆向推断
总体

完整集合
个体
变量
参数

固定真值 μ
样本

总体子集
统计量

波动估计值 x̄

为什么需要区分参数与统计量

确定性 vs 随机性：
- 参数是确定的真理。例如，"全人类的平均身高"是一个固定的数值，只是我们没法把每个人都量一遍，所以不知道它具体是多少。
- 统计量 是随机的。如果你今天抽一组人算平均身高，明天再抽一组，结果肯定不一样。这种波动性就是抽样误差。
推断的本质：
- 统计学的核心任务，就是利用已知的、波动的统计量 ，通过概率论的方法，去推测未知的、固定的参数的范围或数值。

变量的四级测量尺度 (Levels of Measurement)

尺度类型	定义	特征	允许的数学运算	典型统计量
定类 Nominal	仅用于分类或命名，无顺序之分。	互斥性：类别间无重叠。无序性：类别间无高低优劣。	=== (等于), ≠\neq= (不等于)	频数、众数、列联表
定序 Ordinal	既有分类，又有等级顺序，但间距未知。	有序性：可比较大小/等级。不等距：等级间的差异无法量化。	=,≠,>,<=, \neq, >, <=,=,>,< (大于/小于)	中位数、众数、百分位数
定距 Interval	有顺序，且间距相等，但无绝对零点。	等距性：差值有意义。零点是人为的：0不代表"没有"，只是刻度起点。	=,≠,>,<,+,−=, \neq, >, <, +, -=,=,>,<,+,− (加减)	均值、标准差、相关系数
定比 Ratio	最高级尺度，有顺序、等距，且有绝对零点。	绝对零：0代表"完全没有"该属性。可比率：倍数关系有意义。	所有运算 (+,−,×,÷+, -, \times, \div+,−,×,÷)	几何平均数、变异系数

逻辑递进关系：

定类 →\rightarrow→ 只能分堆。

定序 →\rightarrow→ 能排排队，但不知道隔多远。

定距 →\rightarrow→ 能算差距，但不能说"谁是几倍"（因为0是假的）。

定比 →\rightarrow→ 全能，能说"谁是几倍"（因为0是真的）。

变量尺度层级图

无
有
否/未知
是
无 (0是人为)
有 (0是无)
变量 Variable
是否有顺序？
定类 Nominal

最低精度

仅分类
间距是否相等？
定序 Ordinal

中等精度

可排序
是否有绝对零点？
定距 Interval

高精度

可加减
定比 Ratio

最高精度

可乘除

2. 抽样方法

抽样是从总体获取样本的过程。根据是否遵循随机原则 ，分为两大类。概率抽样是统计推断的基础，因为它允许计算误差。

类别	方法名称	核心逻辑	适用场景	优点	缺点
概率抽样(随机)	简单随机抽样(SRS)	每个个体被抽中的概率完全相等，完全随机。	总体较小，名单完整，个体差异不大。	原理简单，无偏估计。	大总体操作难，可能漏掉特殊子群。
	分层抽样(Stratified)	先按特征将总体分组(层) ，再在每层内随机抽取。	总体内部差异大，且已知明显的分类特征。	样本代表性强，估计精度高。	需预先掌握总体分层信息。
	系统抽样(Systematic)	将总体排序，确定间隔(k)，每隔k个抽一个。	总体名单长，且排列无周期性规律。	操作简便，分布均匀。	若总体有周期性规律，会产生严重偏差。
	整群抽样(Cluster)	将总体分成若干群，随机抽取几个群，对群内所有个体调查。	总体范围极大，个体分散，群间差异小。	成本低，实施方便（集中调查）。	同等样本量下，误差通常大于简单随机。
非概率抽样(非随机)	方便抽样	选取最容易接触到的个体。	预调研、探索性研究。	极快、极便宜。	偏差极大，无法推断总体。
	判断抽样	研究者凭主观经验选取"典型"个体。	专家访谈、特定案例研究。	针对性强。	主观性强，无法计算误差。
	配额抽样	类似分层，但层内由调查员主观选取而非随机。	市场调研，需控制样本结构。	成本较低，结构可控。	仍存主观偏差，非严格统计推断。

概率抽样流程

是
是
否 (群间差异小)
否
是
否 (名单短或无所谓)
开始抽样
总体是否有

明显异质性子群？
子群内部同质吗？

且群间差异大吗？
分层抽样

层内随机，保证代表性
整群抽样

抽群后全查，省成本
总体名单是否很长？
系统抽样

按间隔抽取
简单随机抽样

纯随机，金标准

🔹 为什么"定距"不能做乘除？

概念核心 ：零点。
解释：在定距尺度中（如摄氏温度），0度并不代表"没有热量"，只是水结冰的点。因此，20度并不是10度的"两倍热"。而在定比尺度中（如开尔文温度或重量），0代表"无"，所以20kg确实是10kg的两倍。

3. 统计调查方式

类别	具体方式	本质定义	核心特征	优缺点分析
全面调查	普查 (Census)	对总体中的每一个个体进行无一遗漏的调查。	全覆盖：无抽样误差。一次性/周期性：通常耗时耗力，不宜频繁进行。	优点：数据最准确，无抽样误差，可细分到最小单位。缺点：成本极高，耗时极长，组织复杂，易产生登记性误差。
非全面调查	抽样调查 (Sampling Survey)	从总体中随机抽取部分个体进行调查，并推断总体。	随机性：遵循概率原则。推断性：核心在于用样本估计总体。	优点：成本低，速度快，可进行深入分析，误差可控。缺点：存在抽样误差，对抽样技术要求高。
	重点调查 (Key-point Survey)	选择总体中标志总量占绝大比重的少数单位进行调查。	非随机：主观选择"大头"。代表性：仅反映总体的主要情况，不能推断总体总量。	优点：省时省力，能迅速掌握主要情况。缺点：无法推断总体精确数值，不适用于分布均匀的总体。
	典型调查 (Typical Survey)	有意识地选择若干具有代表性的单位进行深入调查。	定性为主：旨在解剖麻雀，认识事物本质和规律。非推断性：不用于数量推断。	优点：深入细致，能发现深层原因和机制。缺点：受主观选择影响大，无法量化推断总体。

逻辑辨析：

普查是"全量"，没有抽样误差，但有登记误差。

抽样调查是"以样推总"，有抽样误差，但可计算和控制。

重点调查抓"大头"，只看主流，不看全貌。

典型调查抓"代表"，重在定性机理，不在定量推算。

调查方式分类树

统计调查
全面调查
普查
特点：无遗漏
局限：成本高
非全面调查
概率抽样
抽样调查
目的：推断总体
基础：随机原则
非概率/专门调查
重点调查
对象：占比大的少数
目的：掌握主要情况
典型调查
对象：具代表性的个别
目的：定性机理分析

变量数列编制

第一步：数据排序与计算全距 (Sort & Range)

目的：了解数据的分布范围和极值，为分组做准备。
1. 排序：将原始数据 XXX 从小到大排列。
2. 找极值 ：确定最大值 (XmaxX_{max}Xmax) 和最小值 (XminX_{min}Xmin)。
3. 算全距 (RRR) ：
  R=Xmax−XminR = X_{max} - X_{min}R=Xmax−Xmin
  第二步：确定组数 (k) (Determine Number of Classes)
  目的：决定将数据分成多少段。
- 判断类型：
- 若是单项式数列：跳过此步，直接按不同变量值个数定组。
- 若是组距式数列：需计算组数。

计算方法：
1. 经验公式法 ：使用 斯特格斯公式
  k=1+3.322×lg⁡(N)k = 1 + 3.322 \times \lg(N)k=1+3.322×lg(N)
  (结果向上取整)
第三步：确定组距 (i) (Determine Class Width)
目的：确定每一组的宽度。
- 计算公式 ：
  i=Rk=Xmax−Xminki = \frac{R}{k} = \frac{X_{max} - X_{min}}{k}i=kR=kXmax−Xmin
- 调整原则：
1. 向上取整：计算结果若有小数，必须进位，确保覆盖全距。
2. 取"漂亮"数字 ：为了方便阅读和计算，通常将组距调整为 5, 10, 50, 100 等整数或倍数。
3. 一致性 ：若采用等距分组 ，所有组的 iii 必须相同；若异距分组，则根据数据疏密灵活设定。
第四步：划定组限 (Determine Class Limits)
目的：明确每组的起点和终点，确保"不重不漏"。
1. 确定首组下限 ：
* 通常略小于或等于 XminX_{min}Xmin。

* 为了美观，常取为组距 iii 的整数倍。
1. 推算其他组限 ：
* 下一组下限 = 上一组上限。

* 组上限 = 组下限 + 组距 iii。
1. 处理重叠界限（连续变量核心规则） ：
* "上限不在内"原则 ：规定区间为 [L,U)[L, U)[L,U) 。

* 即：数值等于上限时，归入下一组 。

* 例：60-70, 70-80。若数据为 70，归入 70-80 组。
1. 处理极端值（开口组） ：
* 若两端有极端值，可设"xx以下"或"xx以上"。

第五步：统计频数 (Tally Frequencies)
目的：清点落入每组的数据个数。
1. 划记法 ：逐个检查原始数据，落入哪组就在该组画一笔。
2. 汇总频数 (fff) ：统计每组的总数。
3. 校验：
  ∑f=N\sum f = N∑f=N
(各组频数之和必须等于样本总量，否则说明有漏数或重数)

二、数据特征

维度一：集中趋势(Central Tendency)

指标	定义/公式	优点	缺点/局限	适用场景
算术均值 (xˉ\bar{x}xˉ)	∑xin\frac{\sum x_i}{n}n∑xi	利用所有信息，数学性质好，最常用。	极易受极端值（异常值）影响。	数据对称分布（如正态），无极端值。
中位数 (MeM_eMe)	排序后位于中间的数	稳健，不受极端值影响。	未利用所有数据信息，数学处理较难。	数据偏态分布（如收入、房价），有异常值。
众数 (MoM_oMo)	出现次数最多的值	不受极端值影响；可用于定性数据。	可能不存在或多众数；不稳定。	定性数据（如最畅销颜色）；离散型数据。
几何均值 (GGG)	x1⋅x2⋯xnn\sqrt $n$ {x_1 \cdot x_2 \cdots x_n}nx1⋅x2⋯xn	适用于比率、速度等连乘数据。	数据含0或负数时无法计算。	计算平均增长率、平均利率。

决策法则：

对称分布 →\rightarrow→ 首选均值。

偏态分布/有异常值 →\rightarrow→ 首选 中位数。

定类数据 →\rightarrow→ 只能用众数。

维度二：离散程度 (Dispersion)

指标	定义/公式	特点	适用场景
极差 (RRR)	Xmax−XminX_{max} - X_{min}Xmax−Xmin	计算简单，但只利用了两个数据，极不稳定。	快速了解数据跨度。
四分位距 (IQRIQRIQR)	Q3−Q1Q_3 - Q_1Q3−Q1	稳健，剔除两端25%的干扰，反映中间50%数据的波动。	配合中位数使用，识别异常值。
方差 (S2S^2S2)	∑(xi−xˉ)2n−1\frac{\sum(x_i - \bar{x})^2}{n-1}n−1∑(xi−xˉ)2 (样本)	数学性质最好，但单位是平方，物理意义不明。	统计推断、假设检验的基础。
标准差 (SSS)	S2\sqrt{S^2}S2	最常用。单位与原数据一致，直观反映平均偏离程度。	衡量风险（金融）、质量控制（6σ）。
变异系数 (CVCVCV)	Sxˉ×100%\frac{S}{\bar{x}} \times 100\%xˉS×100%	无量纲（相对数）。消除量纲和均值大小的影响。	比较不同单位或均值差异大的两组数据的离散度。(例：比较大象体重的波动 vs 蚂蚁体重的波动)

维度三：分布形态 (Shape)

A. 偏态系数 (Skewness, SK)

描述分布的对称性。

SK=0SK = 0SK=0：对称分布（均值=中位数）。
SK>0SK > 0SK>0：右偏（正偏），长尾在右（均值 > 中位数）。
SK<0SK < 0SK<0：左偏（负偏），长尾在左（均值 < 中位数）。
经验判断 ：∣SK∣>1|SK| > 1∣SK∣>1 为高度偏态，0.5<∣SK∣<10.5 < |SK| < 10.5<∣SK∣<1 为中度偏态。

B. 峰态系数 (Kurtosis, K)

描述分布的尖峭程度（与正态分布相比）。

K=0K = 0K=0 (或3，取决于定义)：常峰态（与正态分布相似）。
K>0K > 0K>0：尖峰分布（数据更集中在均值附近，尾部更厚，极端值概率大）。
K<0K < 0K<0：平峰分布（数据分布更分散，顶部平坦）。

维度四：相对位置 (Relative Position)

A. 百分位数 (Percentiles)

将数据从小到大排序，处于 P%P\%P% 位置的数值。
四分位数 是特殊的百分位数：Q1(25%)Q_1 (25\%)Q1(25%), Q2(50%,中位数)Q_2 (50\%, \text{中位数})Q2(50%,中位数), Q3(75%)Q_3 (75\%)Q3(75%)。
应用：考试排名（前10%）、儿童生长曲线。

B. Z-分数 (Z-Score / Standard Score)

公式：Z=xi−xˉSZ = \frac{x_i - \bar{x}}{S}Z=Sxi−xˉ
含义：该数值距离均值有几个标准差。
判定异常值：
- ∣Z∣>3|Z| > 3∣Z∣>3：通常视为异常值（在正态分布中概率仅0.3%）。
- ∣Z∣>2|Z| > 2∣Z∣>2：值得关注的离群点。
作用：将不同量纲的数据标准化，进行直接比较。

综合可视化：箱线图 (Boxplot)

箱线图 是唯一能同时展示集中趋势、离散程度、偏态、异常值的图表，是描述数据特征的"瑞士军刀"。

BoxPlot
+Whisker(上须) : : Q3 + 1.5*IQR
+Q3(上四分位) : : 75% 位置
+Median(中位数) : : 箱体中线
+Q1(下四分位) : : 25% 位置
+Whisker(下须) : : Q1 - 1.5*IQR
+Outliers(异常值) : : 须线之外的点
箱体高度 = IQR (中间50%数据的范围) 中位数线位置反映偏态须线长度反映尾部延伸

箱线图解读指南：

中位数线在箱体中间 →\rightarrow→ 对称。
中位数线偏下 →\rightarrow→ 上半部分数据更分散（右偏）。
上须线很长 →\rightarrow→ 存在较大的极端值。
箱体外的点 →\rightarrow→ 明确的异常值，需单独分析。

总论