统计学习是统计学中的一个领域,专注于建立模型以进行预测或推断。
监督学习:回归(Supervised Learning: Regression)
1. 回归任务的核心目标
-
目标是使用样本数据来估计一个函数,即:
Y = f ( X ) + ε Y = f(X) + \varepsilon Y=f(X)+ε
其中:
- Y 是目标变量(因变量)
- X 是自变量(特征变量)
- f(X) 是映射关系,即我们希望学习的函数
- ε 是不可约误差(irreducible error),即无法通过模型减少的噪声
2. 参数回归(Parametric Regression)
-
这种方法对函数形式 做出显式假设,比如线性回归:
f ( X ) = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β p X p f(X) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p f(X)=β0+β1X1+β2X2+⋯+βpXp
其中:
- β0,β1,...,βp 是需要估计的参数
-
特点:
- 假设 f(X) 的函数形式,例如线性、多项式、指数等
- 估计参数(如最小二乘法求解回归系数)
- 计算高效,但可能模型假设不够灵活,导致欠拟合(underfitting)
3. 非参数回归(Nonparametric Regression)
- 不假设 f(X) 具有特定的函数形式,而是基于数据学习 ,假设 f(X) 是一个很好地拟合数据的平滑函数:
- 局部加权回归(LOESS, LOWESS)
- 核回归(Kernel Regression)
- 样条回归(Spline Regression)
- 决策树(Decision Tree)、随机森林(Random Forest)
- 神经网络(Neural Networks)
- 特点:
- 不依赖特定函数形式
- 适用于复杂数据模式,但计算成本较高
- 可能容易过拟合(overfitting)
线性回归模型(Linear Regression Model)
线性回归模型用于建立自变量 XXX 和因变量 YYY 之间的线性关系:
Y = f ( X ) + ε = β 0 + β 1 X + ε Y = f(X) + \varepsilon = \beta_0 + \beta_1 X + \varepsilon Y=f(X)+ε=β0+β1X+ε
1. 变量定义
- X:预测变量(Predictor)、特征(Feature)、独立变量(Independent Variable)
- Y:响应变量(Response)、目标(Target)、因变量(Dependent Variable)
2. 线性回归参数
-
β0(截距,Intercept):
- 当 X=0时,Y 的期望值(E[Y])。
- 代表回归线与 Y轴的交点。
-
β1(斜率,Slope):
-
代表 X 每增加 1 个单位,Y的平均变化量。
-
解释:
- 若 β1>0,则 X 增加时 Y 也增加(正相关)。
- 若 β1<0,则 X 增加时 Y 减少(负相关)。
-
-
ε(误差项,Error Term):
- 代表不可解释的误差(随机误差)。
- 经典假设:
- 服从正态分布:ε∼N(0,σ2)
- 期望值为 0,即 E[ε]=0
- 方差有限,且独立同分布(i.i.d.)
最小二乘法(Least Squares Method, LSM)
1. 估计回归系数(Least Squares Equations)
(1) 目标:最小化误差平方和(RSS)
R S S = ∑ i = 1 n ( y i − ( β 0 + β 1 x i ) ) 2 RSS = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2 RSS=i=1∑n(yi−(β0+β1xi))2
通过偏导数求解最优参数:
∂ R S S ∂ β 0 = 0 \frac{\partial RSS}{\partial \beta_0} = 0 ∂β0∂RSS=0
∂ R S S ∂ β 1 = 0 \frac{\partial RSS}{\partial \beta_1} = 0 ∂β1∂RSS=0
(2) 回归系数公式
- 斜率(Regression Coefficient):
β ^ 1 = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 = Cov ( X , Y ) Var ( X ) \hat{\beta}1 = \frac{\sum{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{\text{Cov}(X,Y)}{\text{Var}(X)} β^1=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)=Var(X)Cov(X,Y)
- 截距(Intercept):
β ^ 0 = y ˉ − β ^ 1 x ˉ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} β^0=yˉ−β^1xˉ
其中:
-
xˉ 和 yˉ 分别是 X 和 Y 的样本均值 :
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1i=1∑nxiy ˉ = 1 n ∑ i = 1 n y i \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i yˉ=n1i=1∑nyi
-
样本方差(Variance) :
Var ( X ) = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 \text{Var}(X) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 Var(X)=n1i=1∑n(xi−xˉ)2 -
样本协方差(Covariance) :
Cov ( X , Y ) = 1 n ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) Cov(X,Y)=n1i=1∑n(xi−xˉ)(yi−yˉ)
2. 最小二乘回归线(Least Squares Regression Line)
y ^ = β ^ 0 + β ^ 1 x \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x y^=β^0+β^1x
这条回归线是最小二乘回归线(Least Squares Regression Line) ,因为它最小化了残差平方和(RSS)。
3. 最小二乘估计(LSE)的性质
在满足一定假设条件时,最小二乘估计具有**最佳线性无偏估计(Best Linear Unbiased Estimator, BLUE)**的性质。
(1) 经典假设(Classical Assumptions)
为了确保最小二乘估计是最佳估计,需要满足以下假设:
- 线性关系(Linearity)
- Y 和 X之间存在线性关系,即数据可以用一条直线拟合。
- 无多重共线性(No Multicollinearity)
- 如果有多个自变量,它们之间不能高度相关,否则估计结果会不稳定。
- 严格外生性(Strict Exogeneity)
- 误差项 ε 的期望值为 0,即: E[ε∣X]=0
- 这意味着误差不应该受到 X 的影响。
- 误差项独立同分布(i.i.d. Errors)
- 误差项之间相互独立,即: Cov(εi,εj)=0,i≠j
- 误差服从正态分布(Normally Distributed Errors)
- 误差项 ε∼N(0,σ^2),即误差服从均值为 0,方差为 σ^2 的正态分布。
4. 误差的方差(Homoscedasticity vs. Heteroskedasticity)
(1) 方差齐性(Homoscedasticity)
- 若误差项的方差恒定,即:
Var ( ε ∣ X ) = σ 2 \text{Var}(\varepsilon | X) = \sigma^2 Var(ε∣X)=σ2
则模型的估计更为可靠,回归系数的标准误差更准确。
(2) 方差不齐(Heteroskedasticity)
- 若误差方差随着 X 变化,则模型可能存在异方差性(Heteroskedasticity)。
- 解决方案:
- 对 Y 进行对数变换(Log Transformation)
- 使用加权最小二乘法(Weighted Least Squares, WLS)
- 使用稳健回归(Robust Regression)
样本均值的标准误差
样本均值的标准误差(SE)表示了样本均值对总体均值的估计精度。它的大小与样本量和总体的标准差有关。
-
单一总体估计问题
当我们从总体中抽取样本并希望估计总体的均值时,样本均值是一个常用的估计量。
-
样本均值的方差
样本均值的方差是样本量 nnn 和总体方差 σ2\sigma^2σ2 的函数,具体来说,样本均值的方差为:
Var ( Y ‾ ) = σ 2 n \text{Var}(\overline{Y}) = \frac{\sigma^2}{n} Var(Y)=nσ2这表明,随着样本量 nnn 的增加,样本均值的方差会减小,意味着估计结果更加精确。
回归系数的标准误差
回归模型的回归系数(β0 和 β1)的标准误差计算公式如下:
-
截距 β0 的标准误差:
S E ( β 0 ) = σ 2 n + x ‾ 2 n ⋅ ∑ i = 1 n ( x i − x ‾ ) 2 SE(\beta_0) = \sqrt{\frac{\sigma^2}{n} + \frac{\overline{x}^2}{n \cdot \sum_{i=1}^{n}(x_i - \overline{x})^2}} SE(β0)=nσ2+n⋅∑i=1n(xi−x)2x2
-
斜率 β1 的标准误差:
S E ( β 1 ) = σ ∑ i = 1 n ( x i − x ‾ ) 2 SE(\beta_1) = \frac{\sigma}{\sqrt{\sum_{i=1}^{n}(x_i - \overline{x})^2}} SE(β1)=∑i=1n(xi−x)2 σ
这里:
- σ2 是误差项 ϵ 的方差(即回归残差的方差),
- x‾是 x 的均值,
- xi 是样本数据中的每一个自变量。
2. 标准误差与数据分布的关系
- 如果自变量 xi 的分布更为分散(即数据点的变化更大),则回归系数的标准误差会更小。这是因为更多的"杠杆"(leverage)有助于更精确地估计回归参数。
- 当样本量 n 趋近于无穷大时,回归系数的标准误差会趋近于零,意味着回归系数的估计会更加精确。
对于样本均值的标准误差(SE),我们通常使用公式:
S E ( X ‾ ) = σ n SE(\overline{X}) = \frac{\sigma}{\sqrt{n}} SE(X)=n σ
评估模型拟合度 - 拟合优度统计量
拟合优度是通过 决定系数 (coefficient of determination) 来衡量的,通常用符号 R² 表示。它的值范围在 0 到 1 之间,适用于训练数据集。
1. 决定系数 (R²)
决定系数 R² 衡量的是响应变量(Y)的变化有多少部分可以通过线性回归模型来解释。具体来说:
- R²=0:表示通过线性回归模型解释响应变量 Y 的变化完全失败,模型没有解释能力。
- R²=1:表示模型完全解释了响应变量 Y 的所有变化,回归模型拟合得非常完美。
2. 解释
-
决定系数
是通过计算模型预测值与实际值之间的差异来衡量模型拟合效果的。其计算公式为:
R 2 = 1 − Residual Sum of Squares (RSS) Total Sum of Squares (TSS) R^2 = 1 - \frac{\text{Residual Sum of Squares (RSS)}}{\text{Total Sum of Squares (TSS)}} R2=1−Total Sum of Squares (TSS)Residual Sum of Squares (RSS)
- RSS (Residual Sum of Squares):回归模型的残差平方和,表示模型无法解释的部分。
- TSS (Total Sum of Squares):响应变量 Y 的总变差,表示数据的总变化。
3. 重要提醒
- R² 主要用于评估 线性回归模型 的拟合效果。
- 对于 非线性模型 ,R² 可能并不适用或者不能作为唯一的评估指标。这是因为对于非线性模型,总平方和 (TSS) 并不等于残差平方和 (RSS) 和解释平方和 (ESS) 的总和。
- 非线性模型 的评估需要考虑其他适合的拟合度指标,例如:交叉验证、AIC(赤池信息量准则)、BIC(贝叶斯信息量准则)等。
因果关系的注意事项
- 在多元线性回归中,回归系数仅表示预测变量与响应变量之间的关联,并不意味着因果关系。
- 特别是在观察性数据中(即非实验数据),应避免做出因果推断。观察性数据只能揭示变量之间的相关性,而不能确定因果关系。