总论
一、基础概念
- 在数据科学领域,机器学习的范式与统计学的传统方法存在深刻的对应关系:
-
监督学习 (Supervised Learning) ⟷⟷ 统计分类 (Statistical Classification)
- 定义:利用带有标签(已知结果)的训练数据来构建模型,目的是预测新数据的离散类别标签。
- 统计学视角:属于判别分析或回归分析(当目标为离散变量时),旨在寻找特征 X 与类别 Y 之间的映射函数 f:X→Y。
- 典型算法:逻辑回归、支持向量机 (SVM)、决策树、朴素贝叶斯。
-
无监督学习 (Unsupervised Learning) ⟷⟷ 统计聚类 (Statistical Clustering)
- 定义:处理没有标签的数据,旨在发现数据内部的结构、模式或分组。
- 统计学视角:属于探索性数据分析,旨在根据样本间的相似性或距离度量,将数据划分为若干个簇(Cluster),使得簇内差异最小化,簇间差异最大化。
- 典型算法:K-Means、层次聚类、DBSCAN、高斯混合模型 (GMM)。
数据学习方法
监督学习
无监督学习
对应:统计分类
特征:有标签
对应:统计聚类
特征:无标签
1. 核心概念
| 概念 | 定义 | 关键属性 | 常用符号 |
|---|---|---|---|
| 总体Population | 研究对象的完整集合。包含所有符合特定条件的个体。 | 唯一性 :范围确定。不可全知性:通常因数量巨大而无法全面观测。 | NNN (大小) |
| 个体Individual | 构成总体的最小基本单位。 | 独立性 :每个个体是独立的观察单元。载体性:变量的具体承载者。 | - |
| 样本 Sample | 从总体中按规则抽取的子集。 | 代表性 :旨在反映总体特征。随机性:不同抽样会得到不同样本。 | nnn (大小) |
| 变量Variable | 描述个体某种属性或特征的概念。 | 变异性 :取值在不同个体间发生变化。分类性:分为定性(类别)与定量(数值)。 | X,YX, YX,Y |
| 参数 Parameter | 描述总体 特征的固定数值指标。 | 常数性 :客观存在且唯一,不随抽样改变。未知性:通常需要通过估计获知。 | μ,σ,π\mu, \sigma, \piμ,σ,π(希腊字母) |
| 统计量 Statistic | 描述样本 特征的计算数值指标。 | 随机性 :随样本不同而波动(随机变量)。可知性:可直接通过样本数据计算得出。 | xˉ,s,p\bar{x}, s, pxˉ,s,p(拉丁字母) |
此图展示了五个概念在统计推断过程中的抽象逻辑流:
推断域:样本
过程:抽样
目标域:总体
由...构成
具有属性
属性汇总
随机抽取
属性计算
逆向推断
总体
完整集合
个体
变量
参数
固定真值 μ
样本
总体子集
统计量
波动估计值 x̄
- 为什么需要区分参数与统计量
-
确定性 vs 随机性:
- 参数是确定的真理。例如,"全人类的平均身高"是一个固定的数值,只是我们没法把每个人都量一遍,所以不知道它具体是多少。
- 统计量 是随机的。如果你今天抽一组人算平均身高,明天再抽一组,结果肯定不一样。这种波动性就是抽样误差。
-
推断的本质:
- 统计学的核心任务,就是利用已知的、波动的统计量 ,通过概率论的方法,去推测未知的、固定的参数的范围或数值。
- 变量的四级测量尺度 (Levels of Measurement)
| 尺度类型 | 定义 | 特征 | 允许的数学运算 | 典型统计量 |
|---|---|---|---|---|
| 定类 Nominal | 仅用于分类 或命名,无顺序之分。 | 互斥性 :类别间无重叠。无序性:类别间无高低优劣。 | === (等于), ≠\neq= (不等于) | 频数、众数、列联表 |
| 定序 Ordinal | 既有分类,又有等级顺序,但间距未知。 | 有序性 :可比较大小/等级。不等距:等级间的差异无法量化。 | =,≠,>,<=, \neq, >, <=,=,>,< (大于/小于) | 中位数、众数、百分位数 |
| 定距 Interval | 有顺序,且间距相等 ,但无绝对零点。 | 等距性 :差值有意义。零点是人为的:0不代表"没有",只是刻度起点。 | =,≠,>,<,+,−=, \neq, >, <, +, -=,=,>,<,+,− (加减) | 均值、标准差、相关系数 |
| 定比 Ratio | 最高级尺度,有顺序、等距,且有绝对零点。 | 绝对零 :0代表"完全没有"该属性。可比率:倍数关系有意义。 | 所有运算 (+,−,×,÷+, -, \times, \div+,−,×,÷) | 几何平均数、变异系数 |
逻辑递进关系:
- 定类 →\rightarrow→ 只能分堆。
- 定序 →\rightarrow→ 能排排队,但不知道隔多远。
- 定距 →\rightarrow→ 能算差距,但不能说"谁是几倍"(因为0是假的)。
- 定比 →\rightarrow→ 全能,能说"谁是几倍"(因为0是真的)。
- 变量尺度层级图
无
有
否/未知
是
无 (0是人为)
有 (0是无)
变量 Variable
是否有顺序?
定类 Nominal
最低精度
仅分类
间距是否相等?
定序 Ordinal
中等精度
可排序
是否有绝对零点?
定距 Interval
高精度
可加减
定比 Ratio
最高精度
可乘除
2. 抽样方法
抽样是从总体获取样本的过程。根据是否遵循随机原则 ,分为两大类。概率抽样是统计推断的基础,因为它允许计算误差。
| 类别 | 方法名称 | 核心逻辑 | 适用场景 | 优点 | 缺点 |
|---|---|---|---|---|---|
| 概率抽样(随机) | 简单随机抽样(SRS) | 每个个体被抽中的概率完全相等,完全随机。 | 总体较小,名单完整,个体差异不大。 | 原理简单,无偏估计。 | 大总体操作难,可能漏掉特殊子群。 |
| 分层抽样(Stratified) | 先按特征将总体分组(层) ,再在每层内随机抽取。 | 总体内部差异大,且已知明显的分类特征。 | 样本代表性强,估计精度高。 | 需预先掌握总体分层信息。 | |
| 系统抽样(Systematic) | 将总体排序,确定间隔(k),每隔k个抽一个。 | 总体名单长,且排列无周期性规律。 | 操作简便,分布均匀。 | 若总体有周期性规律,会产生严重偏差。 | |
| 整群抽样(Cluster) | 将总体分成若干群 ,随机抽取几个群 ,对群内所有个体调查。 | 总体范围极大,个体分散,群间差异小。 | 成本低,实施方便(集中调查)。 | 同等样本量下,误差通常大于简单随机。 | |
| 非概率抽样(非随机) | 方便抽样 | 选取最容易接触到的个体。 | 预调研、探索性研究。 | 极快、极便宜。 | 偏差极大,无法推断总体。 |
| 判断抽样 | 研究者凭主观经验选取"典型"个体。 | 专家访谈、特定案例研究。 | 针对性强。 | 主观性强,无法计算误差。 | |
| 配额抽样 | 类似分层,但层内由调查员主观选取而非随机。 | 市场调研,需控制样本结构。 | 成本较低,结构可控。 | 仍存主观偏差,非严格统计推断。 |
- 概率抽样流程
是
是
否 (群间差异小)
否
是
否 (名单短或无所谓)
开始抽样
总体是否有
明显异质性子群?
子群内部同质吗?
且群间差异大吗?
分层抽样
层内随机,保证代表性
整群抽样
抽群后全查,省成本
总体名单是否很长?
系统抽样
按间隔抽取
简单随机抽样
纯随机,金标准
🔹 为什么"定距"不能做乘除?
- 概念核心 :零点。
- 解释:在定距尺度中(如摄氏温度),0度并不代表"没有热量",只是水结冰的点。因此,20度并不是10度的"两倍热"。而在定比尺度中(如开尔文温度或重量),0代表"无",所以20kg确实是10kg的两倍。
3. 统计调查方式
| 类别 | 具体方式 | 本质定义 | 核心特征 | 优缺点分析 |
|---|---|---|---|---|
| 全面调查 | 普查 (Census) | 对总体中的每一个个体进行无一遗漏的调查。 | 全覆盖 :无抽样误差。 一次性/周期性:通常耗时耗力,不宜频繁进行。 | 优点 :数据最准确,无抽样误差,可细分到最小单位。 缺点:成本极高,耗时极长,组织复杂,易产生登记性误差。 |
| 非全面调查 | 抽样调查 (Sampling Survey) | 从总体中随机抽取部分个体进行调查,并推断总体。 | 随机性 :遵循概率原则。 推断性:核心在于用样本估计总体。 | 优点 :成本低,速度快,可进行深入分析,误差可控。 缺点:存在抽样误差,对抽样技术要求高。 |
| 重点调查 (Key-point Survey) | 选择总体中标志总量占绝大比重的少数单位进行调查。 | 非随机 :主观选择"大头"。 代表性 :仅反映总体的主要情况,不能推断总体总量。 | 优点 :省时省力,能迅速掌握主要情况。 缺点:无法推断总体精确数值,不适用于分布均匀的总体。 | |
| 典型调查 (Typical Survey) | 有意识地选择若干具有代表性的单位进行深入调查。 | 定性为主 :旨在解剖麻雀,认识事物本质和规律。 非推断性:不用于数量推断。 | 优点 :深入细致,能发现深层原因和机制。 缺点:受主观选择影响大,无法量化推断总体。 |
逻辑辨析:
- 普查是"全量",没有抽样误差,但有登记误差。
- 抽样调查是"以样推总",有抽样误差,但可计算和控制。
- 重点调查抓"大头",只看主流,不看全貌。
- 典型调查抓"代表",重在定性机理,不在定量推算。
- 调查方式分类树
统计调查
全面调查
普查
特点:无遗漏
局限:成本高
非全面调查
概率抽样
抽样调查
目的:推断总体
基础:随机原则
非概率/专门调查
重点调查
对象:占比大的少数
目的:掌握主要情况
典型调查
对象:具代表性的个别
目的:定性机理分析
-
变量数列编制
第一步:数据排序与计算全距 (Sort & Range)
目的:了解数据的分布范围和极值,为分组做准备。
- 排序 :将原始数据 XXX 从小到大排列。
- 找极值 :确定最大值 (XmaxX_{max}Xmax) 和最小值 (XminX_{min}Xmin)。
- 算全距 (RRR) :
R=Xmax−XminR = X_{max} - X_{min}R=Xmax−Xmin
第二步:确定组数 (k) (Determine Number of Classes)
目的:决定将数据分成多少段。
- 判断类型:
- 若是单项式数列:跳过此步,直接按不同变量值个数定组。
- 若是组距式数列:需计算组数。
-
计算方法:
- 经验公式法 :使用 斯特格斯公式
k=1+3.322×lg(N)k = 1 + 3.322 \times \lg(N)k=1+3.322×lg(N)
(结果向上取整)
第三步:确定组距 (i) (Determine Class Width)
目的:确定每一组的宽度。- 计算公式 :
i=Rk=Xmax−Xminki = \frac{R}{k} = \frac{X_{max} - X_{min}}{k}i=kR=kXmax−Xmin - 调整原则:
- 向上取整:计算结果若有小数,必须进位,确保覆盖全距。
- 取"漂亮"数字 :为了方便阅读和计算,通常将组距调整为 5, 10, 50, 100 等整数或倍数。
- 一致性 :若采用等距分组 ,所有组的 iii 必须相同;若异距分组,则根据数据疏密灵活设定。
第四步:划定组限 (Determine Class Limits)
目的 :明确每组的起点和终点,确保"不重不漏"。- 确定首组下限 :
* 通常略小于或等于 XminX_{min}Xmin。
* 为了美观,常取为组距 iii 的整数倍。
- 推算其他组限 :
* 下一组下限 = 上一组上限。
* 组上限 = 组下限 + 组距 iii。
- 处理重叠界限(连续变量核心规则) :
* "上限不在内"原则 :规定区间为 [L,U)[L, U)[L,U) 。
* 即:数值等于上限时,归入下一组 。
* 例:60-70, 70-80。若数据为 70,归入 70-80 组。
- 处理极端值(开口组) :
* 若两端有极端值,可设"xx以下"或"xx以上"。
第五步:统计频数 (Tally Frequencies)
目的 :清点落入每组的数据个数。-
划记法 :逐个检查原始数据,落入哪组就在该组画一笔。
-
汇总频数 (fff) :统计每组的总数。
-
校验 :
∑f=N\sum f = N∑f=N
(各组频数之和必须等于样本总量,否则说明有漏数或重数)
- 经验公式法 :使用 斯特格斯公式
二 、数据特征
维度一:集中趋势(Central Tendency)
| 指标 | 定义/公式 | 优点 | 缺点/局限 | 适用场景 |
|---|---|---|---|---|
| 算术均值 (xˉ\bar{x}xˉ) | ∑xin\frac{\sum x_i}{n}n∑xi | 利用所有信息,数学性质好,最常用。 | 极易受极端值(异常值)影响。 | 数据对称分布(如正态),无极端值。 |
| 中位数 (MeM_eMe) | 排序后位于中间的数 | 稳健,不受极端值影响。 | 未利用所有数据信息,数学处理较难。 | 数据偏态分布(如收入、房价),有异常值。 |
| 众数 (MoM_oMo) | 出现次数最多的值 | 不受极端值影响;可用于定性数据。 | 可能不存在或多众数;不稳定。 | 定性数据(如最畅销颜色);离散型数据。 |
| 几何均值 (GGG) | x1⋅x2⋯xnn\sqrt[n]{x_1 \cdot x_2 \cdots x_n}nx1⋅x2⋯xn | 适用于比率、速度等连乘数据。 | 数据含0或负数时无法计算。 | 计算平均增长率、平均利率。 |
决策法则:
- 对称分布 →\rightarrow→ 首选 均值。
- 偏态分布/有异常值 →\rightarrow→ 首选 中位数。
- 定类数据 →\rightarrow→ 只能用 众数。
维度二:离散程度 (Dispersion)
| 指标 | 定义/公式 | 特点 | 适用场景 |
|---|---|---|---|
| 极差 (RRR) | Xmax−XminX_{max} - X_{min}Xmax−Xmin | 计算简单,但只利用了两个数据,极不稳定。 | 快速了解数据跨度。 |
| 四分位距 (IQRIQRIQR) | Q3−Q1Q_3 - Q_1Q3−Q1 | 稳健,剔除两端25%的干扰,反映中间50%数据的波动。 | 配合中位数使用,识别异常值。 |
| 方差 (S2S^2S2) | ∑(xi−xˉ)2n−1\frac{\sum(x_i - \bar{x})^2}{n-1}n−1∑(xi−xˉ)2 (样本) | 数学性质最好,但单位是平方,物理意义不明。 | 统计推断、假设检验的基础。 |
| 标准差 (SSS) | S2\sqrt{S^2}S2 | 最常用。单位与原数据一致,直观反映平均偏离程度。 | 衡量风险(金融)、质量控制(6σ)。 |
| 变异系数 (CVCVCV) | Sxˉ×100%\frac{S}{\bar{x}} \times 100\%xˉS×100% | 无量纲(相对数)。消除量纲和均值大小的影响。 | 比较不同单位 或均值差异大 的两组数据的离散度。(例:比较大象体重的波动 vs 蚂蚁体重的波动) |
维度三:分布形态 (Shape)
A. 偏态系数 (Skewness, SK)
描述分布的对称性。
- SK=0SK = 0SK=0:对称分布(均值=中位数)。
- SK>0SK > 0SK>0:右偏(正偏),长尾在右(均值 > 中位数)。
- SK<0SK < 0SK<0:左偏(负偏),长尾在左(均值 < 中位数)。
- 经验判断 :∣SK∣>1|SK| > 1∣SK∣>1 为高度偏态,0.5<∣SK∣<10.5 < |SK| < 10.5<∣SK∣<1 为中度偏态。
B. 峰态系数 (Kurtosis, K)
描述分布的尖峭程度(与正态分布相比)。
- K=0K = 0K=0 (或3,取决于定义):常峰态(与正态分布相似)。
- K>0K > 0K>0:尖峰分布(数据更集中在均值附近,尾部更厚,极端值概率大)。
- K<0K < 0K<0:平峰分布(数据分布更分散,顶部平坦)。
维度四:相对位置 (Relative Position)
A. 百分位数 (Percentiles)
- 将数据从小到大排序,处于 P%P\%P% 位置的数值。
- 四分位数 是特殊的百分位数:Q1(25%)Q_1 (25\%)Q1(25%), Q2(50%,中位数)Q_2 (50\%, \text{中位数})Q2(50%,中位数), Q3(75%)Q_3 (75\%)Q3(75%)。
- 应用:考试排名(前10%)、儿童生长曲线。
B. Z-分数 (Z-Score / Standard Score)
- 公式 :Z=xi−xˉSZ = \frac{x_i - \bar{x}}{S}Z=Sxi−xˉ
- 含义:该数值距离均值有几个标准差。
- 判定异常值:
- ∣Z∣>3|Z| > 3∣Z∣>3:通常视为异常值(在正态分布中概率仅0.3%)。
- ∣Z∣>2|Z| > 2∣Z∣>2:值得关注的离群点。
- 作用:将不同量纲的数据标准化,进行直接比较。
-
综合可视化:箱线图 (Boxplot)
箱线图 是唯一能同时展示集中趋势、离散程度、偏态、异常值的图表,是描述数据特征的"瑞士军刀"。
BoxPlot
+Whisker(上须) : : Q3 + 1.5*IQR
+Q3(上四分位) : : 75% 位置
+Median(中位数) : : 箱体中线
+Q1(下四分位) : : 25% 位置
+Whisker(下须) : : Q1 - 1.5*IQR
+Outliers(异常值) : : 须线之外的点
箱体高度 = IQR (中间50%数据的范围) 中位数线位置反映偏态 须线长度反映尾部延伸
箱线图解读指南:
- 中位数线在箱体中间 →\rightarrow→ 对称。
- 中位数线偏下 →\rightarrow→ 上半部分数据更分散(右偏)。
- 上须线很长 →\rightarrow→ 存在较大的极端值。
- 箱体外的点 →\rightarrow→ 明确的异常值,需单独分析。